我写了一些基本的程序,我想提取波兰语词引理什么是非常重要的,因为波兰语使用屈折。在
我正在创建一个简单的程序来加载数据并将单词转换为引理,但不知道如何操作:
from nltk import corpus
pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()
我想用这种模棱两可的柠檬化方法(例如,在某些情况下,我可以忽略它):
^{pr2}$如何在或nltk中使用pl196x来完成这项工作。在
语料库的源数据包含这样的词形变化和引理-因此,有可能但是如何访问它:
<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.
我不知道NLTK本身是否可能。当我遇到类似的问题时,我用Morfeusz(http://sgjp.pl/morfeusz/)来解决这个问题。虽然我只使用了这个库的C版本,但是它有一个Python绑定(http://jwilk.net/software/python-morfeusz)。在
相关问题 更多 >
编程相关推荐