我使用Python和nltk+Textblob进行一些文本分析。有趣的是,你可以为wordnet添加一个POS,使你对同义词的搜索更加具体,但不幸的是,nltk和Textblob中的标记与wordnet期望的synset类的输入不“兼容”。在
示例 Wordnet.synsets()要求你给它的POS是n,v,a,r中的一个,像这样
wn.synsets("dog", POS="n,v,a,r")
但是upenn_treebank的标准词性标记看起来像
^{pr2}$所以我在寻找一个很好的方法在两者之间转换。在
除了暴力之外,还有谁知道让这种转变发生的好方法吗?在
如果
textblob
正在使用penntrebank(ptb)标记集,那么只需使用POS标记中的第一个字符映射到WN POS标记。在WN POS标记集包括'a'=形容词/副词,'s'=卫星形容词,'n'=名词和'v'=动词。在
尝试:
相关问题 更多 >
编程相关推荐