从常见的二元曲线/三元曲线创建标记

2024-10-02 02:29:51 发布

男 | 程序猿一只，喜欢编程写python代码。

假设我有绳子：

"HMG-CoA reductase is a rate-limiting enzyme. HMG-CoA reductase is the primary enzyme in cholesterol synthesis."

我想计算字符串中标记的频率。但是，我希望'HMG-CoA reductase'是一个标记（即，我不希望单个单词'HMG-Coa'和'reductase'的频率）。在

我认为一个好的方法是创建一个重要的列表：

[HMG-CoA reductase, reductase is, ..., cholesterol synthesis]

和八卦图

[HMG-CoA reductase is, ..., in cholesterol synthesis]

然后计算每一个n元表元素的频率。如果一个二元或三元组列表的元素接近（超过某个阈值）unigram列表中元素的频率，那么我就会知道这个二元或三元组，而不是unigram，是我的“标记”。在

我想对大量的非结构化文本数据执行此操作。这是相当标准的文本。我的方法的一个问题是我需要任意设置阈值。NLTK中是否已经有一个库来解决这个问题，或者有人知道一个通用的方法吗？在

Tags：方法 in 标记元素列表 is 阈值频率

0条回答

目前没有回答