pythonnltk从语料库中创建一个“Dictionary”并保存数字标记

2024-06-26 10:49:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Python不是很有经验,但是我想用语料库做一些数据分析,所以我在nltkpython中做这部分工作。在

我想浏览整个语料库,并制作一个词典,其中包含语料库数据集中出现的每个单词。我希望能够在字典中搜索一个单词,并找出这个单词作为词性(tag)出现的次数。例如,如果我要搜索“dog”,我可能会找到100个名词标签和5个动词标签,等等

最终目标是将这个文件外部保存为.txt或其他文件,并将其加载到另一个程序中,以检查单词是哪个标记的概率。。在

我可以用计数器和ngrams来做这个吗?在


Tags: 文件数据字典tag动词标签经验单词
1条回答
网友
1楼 · 发布于 2024-06-26 10:49:34

因为你只需要松散词的词性,你不需要ngrams,你需要一个带标记的语料库。假设你的语料库已经被标记,你可以这样做。在

>>> from nltk.corpus import brown
>>> wordcounts = nltk.ConditionalFreqDist(brown.tagged_words())
>>> wordcounts["set"].tabulate(10)
VBN   VB   NN  VBD VBN-HL NN-HL 
159   88   86   71    2    2 

ConditionalFreqDist基本上是一个Counter对象的字典,其中包含一些额外的内容。在NLTK文档中查找。在

如果你想在计数前对你的单词进行大小写规范化,使用

^{pr2}$

相关问题 更多 >