从常见的二元曲线/三元曲线创建标记

2024-10-02 02:29:51 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有绳子:

"HMG-CoA reductase is a rate-limiting enzyme. HMG-CoA reductase is the primary enzyme in cholesterol synthesis."

我想计算字符串中标记的频率。但是,我希望'HMG-CoA reductase'是一个标记(即,我不希望单个单词'HMG-Coa''reductase'的频率)。在

我认为一个好的方法是创建一个重要的列表:

[HMG-CoA reductase, reductase is, ..., cholesterol synthesis]

和八卦图

[HMG-CoA reductase is, ..., in cholesterol synthesis]

然后计算每一个n元表元素的频率。如果一个二元或三元组列表的元素接近(超过某个阈值)unigram列表中元素的频率,那么我就会知道这个二元或三元组,而不是unigram,是我的“标记”。在

我想对大量的非结构化文本数据执行此操作。这是相当标准的文本。我的方法的一个问题是我需要任意设置阈值。NLTK中是否已经有一个库来解决这个问题,或者有人知道一个通用的方法吗?在


Tags: 方法in标记元素列表is阈值频率

热门问题