假设我有绳子:
"HMG-CoA reductase is a rate-limiting enzyme. HMG-CoA reductase is the primary enzyme in cholesterol synthesis."
我想计算字符串中标记的频率。但是,我希望'HMG-CoA reductase'
是一个标记(即,我不希望单个单词'HMG-Coa'
和'reductase'
的频率)。在
我认为一个好的方法是创建一个重要的列表:
[HMG-CoA reductase, reductase is, ..., cholesterol synthesis]
和八卦图
[HMG-CoA reductase is, ..., in cholesterol synthesis]
然后计算每一个n元表元素的频率。如果一个二元或三元组列表的元素接近(超过某个阈值)unigram列表中元素的频率,那么我就会知道这个二元或三元组,而不是unigram,是我的“标记”。在
我想对大量的非结构化文本数据执行此操作。这是相当标准的文本。我的方法的一个问题是我需要任意设置阈值。NLTK中是否已经有一个库来解决这个问题,或者有人知道一个通用的方法吗?在
目前没有回答
相关问题 更多 >
编程相关推荐