当使用像PMI这样的bigram_度量时,何时删除停止字?

2024-06-17 11:13:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要验证处理bigram_度量(如PMI)返回的bigram停止字的总体方法。为什么要处理这些停止语?好吧,它们是噪音,在某个点之后不会增加任何附加值。在

我看到了几个关于如何使用bigram_度量的具体例子。但是,我想知道在清理数据、扩展、柠檬化/词干分析等整个过程中,何时最好删除停止字

是的,我使用的语料库足够大。我记得你的语料库的大小也会影响二元测量结果的质量。在

根据这篇文章(NLTK - Counting Frequency of Bigram)中接受的答案,似乎在对语料库使用PMI或其他bigram_度量之后,停止词可以被删除。在

"Imagine that if filtering collocations was simply deleting them, then there were many probability measures such as liklihood ratio or the PMI itself (that compute probability of a word relative to other words in a corpus) which would not function properly after deleting words from random positions in the given corpus. By deleting some collocations from the given list of words, many potential functionalities and computations would be disabled..."

因此,我认为最好的方法是:

  1. 清除文本并删除HTML标记等垃圾字符
  2. 扩大收缩(例如:它们是->;它们是)
  3. 词干化或词干规范化单词
  4. 使用像PMI这样的bigram_度量来计算bigram。你可以用其他方法来计算二元曲线,但我用的就是这个。在
  5. 应用一个类似“Apply_freq_filter(N)”的频率滤波器,以获得高于阈值的双参数。注意,这仍然会返回一些包含停止词和有价值的双元组的双元组。在
  6. 检查两个词是否都是停止词。如果是,那么不要在最终结果中包含这个二元曲线,而是将它们保留在语料库中,原因如上所述。在

这是一个正确的整体方法来处理二元停止词混合在有价值的二元?在

谢谢。在


Tags: ofthe方法inthat度量manyprobability
1条回答
网友
1楼 · 发布于 2024-06-17 11:13:53

在做了下面的额外研究后,我会提出更多的答案。在

一种方法是: -清除文本 -扩大收缩 -柠檬化 -删除停止语 -运行PMI或其他度量来评分n-grams。在

来源:Python文本分析,第224页。在

我提供上述信息来源的目的是表明我是从哪里得到这个答案的,而不是提供一些没有根据的答案。如果版主认为这是一个“推荐”,那么我会删除它。在

相关问题 更多 >