按出现次数对Bigram排序NLTK

from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords import re tokenizer = RegexpTokenizer(r'([A-za-z]{2,})') tokens = tokenizer.tokenize(alltext) stopwords_list = stopwords.words('english') tokens = [word for word in tokens if word not in stopwords.words('english')] finder = BigramCollocationFinder.from_words(tokens, window_size = 2) bigram_measures = nltk.collocations.BigramAssocMeasures() for k,v in finder.ngram_fd.items(): print k,v

1条回答

网友

1楼 · 发布于 2024-09-30 10:38:09

看起来finder.ngram_fd是一本字典。在这种情况下，在python3中，items()方法不返回列表，因此必须将其转换为一个列表。在

一旦有了一个列表，就可以简单地使用^{}方法的key=参数，该参数指定了我们排序的依据：

ngram = list(finder.ngram_fd.items())
ngram.sort(key=lambda item: item[-1], reverse=True)

您必须添加reverse=True，否则结果将按升序排列。注意，这将对列表进行适当排序。这是最好的时候，你想避免复制。如果您希望获得一个新列表，只需使用具有相同参数的sorted()内置函数。在

或者，您可以用^{}模块替换lambda，它执行相同的操作：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章