Python-NLTK中的德语词干分析

2条回答

网友

1楼 · 编辑于 2024-05-19 08:12:27

一个好而简单的解决方案是使用TreeTagger。首先，您必须手动安装treetagge（这基本上是在您的计算机上的某个地方解压缩正确的zip文件）。您将在这里找到二进制分布：http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

然后您需要安装一个包装器来从Python调用它。在

下面的代码将安装包装器并将标记化的句子分为两部分：

import treetaggerwrapper

tagger = treetaggerwrapper.TreeTagger(TAGLANG='de')

tags = tagger.tag_text(tokenized_sent,tagonly=True) #don't use the TreeTagger's tokenization!

pprint.pprint(tags)

您还可以使用treetaggerwrapper中的方法从Treetagges输出中生成漂亮的对象：

^{pr2}$

仅此而已。在

网友

2楼 · 编辑于 2024-05-19 08:12:27

作为一个计算机科学家，你肯定是朝着正确的方向去解决这个语言问题；）。词干挖掘通常比较简单，用于信息检索任务，试图缩小词汇量，但通常不足以进行更复杂的语言分析。词缀化在一定程度上与词干分析的用例重叠，但包括将动词的词形变化改写为相同的词根形式（词缀），以及区分名词的“work”和动词的“work”（尽管这有点取决于lemmatiser的实现和质量）。为此，它通常需要更多的信息（如POS标记、语法树），因此需要相当长的时间，使得它不太适合IR任务，通常需要处理大量的数据。在

除了GermaNet（不知道它被中止了，但从未真正尝试过，因为它是免费的，但是你必须签署一个协议才能访问它），还有一个SpaCy，你可以看看：https://spacy.io/docs/usage/

非常容易安装和使用。请参阅网站上的安装说明，然后使用以下工具下载德语资料：

python -m spacy download de

然后：

^{pr2}$

正如您所看到的，不幸的是，它在您的特定示例（suchen）上做得不太好，而且我不确定这个数字代表什么（即，必须是引理id，但不确定可以从中获得哪些其他信息），但也许您可以试一试，看看它是否对您有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章