Python:如何计算NLTK语料库中最常用的前X个单词?

2024-05-19 07:56:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我不确定是否正确理解了FreqDist函数在Python上的工作方式。在我学习教程的过程中,我相信下面的代码为给定的单词列表构造了一个频率分布,并计算出前x个常用单词。(在下面的示例中,让corpus是NLTK语料库,而file是该语料库中文件的文件名)

words = corpus.words('file.txt')
fd_words = nltk.FreqDist(word.lower() for word in words)
fd_words.items()[:x]

但是,当我在Python上执行以下命令时,似乎有其他建议:

>>> from nltk import *
>>> fdist = FreqDist(['hi','my','name','is','my','name'])
>>> fdist
FreqDist({'my': 2, 'name':2, 'is':1, 'hi':1}
>>> fdist.items()
[('is',1),('hi',1),('my',2),('name',2)]
>>> fdist.items[:2]
[('is',1),('hi',1)]

fdist.items()[:x]方法实际上返回了x个最不常用的单词?

有人能告诉我是我做错了什么,还是我所学的教程中有错?


Tags: nameismyitems教程corpushi单词

热门问题