pythonnltk从语料库中创建一个“Dictionary”并保存数字标记 - 问答 - Python中文网

pythonnltk从语料库中创建一个“Dictionary”并保存数字标记

2024-06-26 10:49:34 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我对Python不是很有经验，但是我想用语料库做一些数据分析，所以我在nltkpython中做这部分工作。在

我想浏览整个语料库，并制作一个词典，其中包含语料库数据集中出现的每个单词。我希望能够在字典中搜索一个单词，并找出这个单词作为词性（tag）出现的次数。例如，如果我要搜索“dog”，我可能会找到100个名词标签和5个动词标签，等等

最终目标是将这个文件外部保存为.txt或其他文件，并将其加载到另一个程序中，以检查单词是哪个标记的概率。。在

我可以用计数器和ngrams来做这个吗？在

Tags：文件数据字典 tag 动词标签经验单词

1条回答

网友

1楼 · 发布于 2024-06-26 10:49:34

因为你只需要松散词的词性，你不需要ngrams，你需要一个带标记的语料库。假设你的语料库已经被标记，你可以这样做。在

>>> from nltk.corpus import brown
>>> wordcounts = nltk.ConditionalFreqDist(brown.tagged_words())
>>> wordcounts["set"].tabulate(10)
VBN   VB   NN  VBD VBN-HL NN-HL 
159   88   86   71    2    2

ConditionalFreqDist基本上是一个Counter对象的字典，其中包含一些额外的内容。在NLTK文档中查找。在

如果你想在计数前对你的单词进行大小写规范化，使用

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章