有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java StanfordNLP POS的结果好坏参半

我在测试斯坦福NLP POS Tagger,结果好坏参半

SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));

给我以下输出

{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}

我如何处理这样的问题?实际上是相同的词重新排列

编辑

也许,我应该解释一下这个问题

我想比较两个句子。我的方法是对两个字符串执行POS,然后比较并分别为两个字符串中的名词/形容词/动词打分

但由于基于单词顺序的模糊标记(也被@Elliott引用),我的排名在某些情况下失败。有人能提出解决办法吗

是否有一个分类统计数据可以给出一个名词被分类为形容词或动词等的概率,我可以在评分算法中使用它来提供权重

谢谢 查哈特


共 (2) 个答案

  1. # 1 楼答案

    POS标记器总是给出不同的结果;词性标注是上下文的,因为一个词在不同的上下文中可以是名词、形容词或动词。词性标注的AI component决定了如何根据单词在句子中的顺序进行标注

  2. # 2 楼答案

    斯坦福POS Tagger相当不错。但是,如果您想轻松查看与标准NLTK和其他名为Senna的质量标记器的并排比较,您可以尝试以下方法: https://github.com/StealthyK/TaggerTimer