Wordnet信息内容(IC)文件Python

2024-05-17 03:42:16 发布

您现在位置:Python中文网/ 问答频道 /正文

关于NLTK Wordnet中IC文件之间的主要差异,有没有任何文档?在

具体来说,寻找brown iu ic、semcorüic、genesis_ic等之间的差异,这样我就可以确定哪一个最适合我的语料库进行相似性研究。在

附加问题:上述所有相似性度量是否要求所有单词都在同一词性中?在


Tags: 文件文档genesis度量差异相似性单词wordnet
1条回答
网友
1楼 · 发布于 2024-05-17 03:42:16

我想你需要分别搜索每个语料库。位于http://www.nltk.org/nltk_data/的列表实际上只给出了大小和许可证。在

布朗语料库是1961年的美国英语,是事实和小说的混合体。见https://en.wikipedia.org/wiki/Brown_Corpus

semcor是Brown语料库的一个子集。在

《创世纪》是根据http://nlpforhackers.io/corpora/所写的圣经文本(在其他一些文本中也可以找到有用的信息)

相关问题 更多 >