我对Python不是很有经验,但是我想用语料库做一些数据分析,所以我在nltkpython中做这部分工作。在
我想浏览整个语料库,并制作一个词典,其中包含语料库数据集中出现的每个单词。我希望能够在字典中搜索一个单词,并找出这个单词作为词性(tag)出现的次数。例如,如果我要搜索“dog”,我可能会找到100个名词标签和5个动词标签,等等
最终目标是将这个文件外部保存为.txt或其他文件,并将其加载到另一个程序中,以检查单词是哪个标记的概率。。在
我可以用计数器和ngrams来做这个吗?在
Tags:
因为你只需要松散词的词性,你不需要ngrams,你需要一个带标记的语料库。假设你的语料库已经被标记,你可以这样做。在
ConditionalFreqDist
基本上是一个Counter
对象的字典,其中包含一些额外的内容。在NLTK文档中查找。在如果你想在计数前对你的单词进行大小写规范化,使用
^{pr2}$相关问题 更多 >
编程相关推荐