java-Stanford CoreNLP引理无法正确识别
我正在使用命令行中的coreNLP工具来标记一些包含德语文本的文件。我需要得到标记,pos,引理和ner注释。为此,我使用以下命令:
java-cp“*”-Xmx2g-edu。斯坦福。nlp。管道StanfordCoreNLP-注释器标记化、ssplit、pos、引理、ner-文件列表$dir/filelist。input-outputFormat conll——添加java模块。东南方。伊纳。useSUTime 0-outputFormatOptions word、pos、引理、ner-outputDirectory$dir/tagged_articles-replaceExtension-props StanfordCoreNLP德语。属性
然而,我得到的引理并不正确。以下是标记文件的示例:
好的,好的
艺术
adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词adj.副词
技术公司
卡恩·菲恩·卡恩·诺
杰多克ADV杰多克O
接近
我在那里
格伦森NN格伦森O
斯托恩VVINF斯托恩O
其中一些单词的引理应该是:ist->;sein/Textmengen->;text菜单/菜单->;诺姆/格伦森->;格伦泽。所以很明显是出了什么问题,我想知道可能是什么。任何提示都将不胜感激
我使用的是以下德国模型:stanford-German-corenlp-2018-02-27-models。罐子
根据自述文件,coreNLP工具的版本为“2018-02-27 3.9.1”
java版本“10.0.1”2018-04-17
Java(TM)SE运行时环境18.3(构建10.0.1+10)
# 1 楼答案
到目前为止,引理只支持英语:
Supported human languages
你可以尝试使用不同的柠檬化器,手动添加柠檬