名称识别：如何标记训练集并选择算法？

网友

1楼 · 编辑于 2024-10-16 20:39:48

我建议您不要合并命名实体和POS信息。大多数研究表明POS（或其他一些形态和/或大写特征）对于检测命名实体是有价值的。由于您可以非常安全地使用自动POS标记器（除非您处理嘈杂的文本），您可能会得到以下结果：

Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.

其中POS级别将自动标记，而您可以手动注释委托人和承包商。还要注意，大多数人使用BIO format来标记命名实体。在

请记住，识别组织通常是相当困难的——至少比人员和地点更难。除非您有一个预定义的组织列表，否则需要使用大型词典。直觉上，我想你可以把你的任务分为：

识别和过滤组织（ORG），例如使用一个NER标签
注入额外的处理（模式/语法/语义）
实施第二个模型，转换委托人或承包商的相关组织

网友

2楼 · 编辑于 2024-10-16 20:39:48

命名实体识别（Stanford）已经足够解决您的问题了。在

使用词性标记不会帮助您解决问题。在

生成NER模型所需的足够数量的训练数据将给您带来良好的结果。在

如果你使用Stanford-NER，那么它使用CRF分类器和算法。在

网友

3楼 · 编辑于 2024-10-16 20:39:48

您不需要手动标记POS。POS tager会帮你的。在
德语词性标记请参见this question。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

名称识别：如何标记训练集并选择算法？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >