有没有一种方法可以正确地标记(词性标记)组成短语的单词?

2024-09-26 17:52:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试了各种方法来正确地标记一堆组成短语(尤其是名词短语)的单词,但都没有成功。你知道吗

示例:“the”、“first”、“early”、“morning”、“sunbeams”

'early'和'morning'被错误地标记为'Noun',预期结果应该是:('first'、'proxy')、('early'、'proxy')、('morning'、'adgregator')、('sunbeams'、'Noun')

你能建议一个正确标记这些单词的程序吗?你知道吗

提前谢谢。你知道吗


Tags: the方法标记示例错误单词建议proxy
1条回答
网友
1楼 · 发布于 2024-09-26 17:52:39

POS标记器通常使用隐马尔可夫模型。如果您的数据没有用这些方法正确标记,那么您的标记器(自制的?)不适合您的输入数据或您的训练数据不充分(太小,错误注释等)。我假设是来自NLTK、spaCy或Stanford(https://nlp.stanford.edu/software/)的工具的标记者。这些软件包将在当前研究的质量方面发挥作用,因此,如果它仍然容易出错,您将无法修复它。 如果您手头有一个大型集群,可以使用n-grams和n>;3构建您自己的标记器,如果您愿意的话,但我怀疑这是否比上面提到的模块更好。你知道吗

相关问题 更多 >

    热门问题