我正在使用一个来自NLTK包的基本标记器。我以前使用的是OpenNLP的标签系统。我正在切换,因为NLTK有更多的预构建模块,我可以在以后的项目中使用这些模块。但是,我现在缺少的是一个“信心”价值观的标签。在
最初使用OpenNLP设置时,我得到了一个数值(从0到1),它告诉我标记者对自己的决定有多自信(0表示完全不自信,1表示完全自信)。我想知道是否有人知道NLTK的标记系统中有什么值可以类似地工作。它不一定是同一个系统,但我希望某种数字排名,让我很容易看到,如果一个给定的标签,我应该再次检查或不。在
我在NLTK中有一点与置信值类似。是标记器的总体准确度等级,但仅提供预标记源,且用于整个文档,而不是按字计算。在
我的想法是,也许有一些统计学上的决定,关于哪个标签被选为单词,如果我能得到它也许可以作为一个类似的衡量标准,但我找不到任何类似的东西。在
谢谢!在
NLTK标记器不为每个令牌提供直接置信值,但NaiveBayes标记器允许传递一个截止概率:
如果POS标记的置信度低于95%,则标记器将返回None。我发现0.95在精确性和召回率之间是一个很好的折衷(当然这取决于应用程序的需要)。在
相关问题 更多 >
编程相关推荐