我需要验证处理bigram_度量(如PMI)返回的bigram停止字的总体方法。为什么要处理这些停止语?好吧,它们是噪音,在某个点之后不会增加任何附加值。在
我看到了几个关于如何使用bigram_度量的具体例子。但是,我想知道在清理数据、扩展、柠檬化/词干分析等整个过程中,何时最好删除停止字
是的,我使用的语料库足够大。我记得你的语料库的大小也会影响二元测量结果的质量。在
根据这篇文章(NLTK - Counting Frequency of Bigram)中接受的答案,似乎在对语料库使用PMI或其他bigram_度量之后,停止词可以被删除。在
"Imagine that if filtering collocations was simply deleting them, then there were many probability measures such as liklihood ratio or the PMI itself (that compute probability of a word relative to other words in a corpus) which would not function properly after deleting words from random positions in the given corpus. By deleting some collocations from the given list of words, many potential functionalities and computations would be disabled..."
因此,我认为最好的方法是:
这是一个正确的整体方法来处理二元停止词混合在有价值的二元?在
谢谢。在
在做了下面的额外研究后,我会提出更多的答案。在
一种方法是: -清除文本 -扩大收缩 -柠檬化 -删除停止语 -运行PMI或其他度量来评分n-grams。在
来源:Python文本分析,第224页。在
我提供上述信息来源的目的是表明我是从哪里得到这个答案的,而不是提供一些没有根据的答案。如果版主认为这是一个“推荐”,那么我会删除它。在
相关问题 更多 >
编程相关推荐