如何在NLTK中获取synset的wordnet感知频率?

2024-10-02 20:40:19 发布

您现在位置:Python中文网/ 问答频道 /正文

根据文档,我可以在nltk中加载一个有意义的标记语料库:

>>> from nltk.corpus import wordnet_ic
>>> brown_ic = wordnet_ic.ic('ic-brown.dat')
>>> semcor_ic = wordnet_ic.ic('ic-semcor.dat')

我也可以得到这样的definitionposoffsetexamples

>>> wn.synset('dog.n.01').examples
>>> wn.synset('dog.n.01').definition

但是如何从语料库中获取语法集的频率呢?要分解问题:

  1. 首先,如何计算一个语法集发生了多少次有意义标记的语料库?
  2. 然后下一步是用计数除以给定特定引理的所有出现的语法集的计数总数。

Tags: 标记语法exampleswordnetdat意义语料库dog