命名实体识别:用于新实体/最新实体

2024-10-01 05:05:33 发布

您现在位置:Python中文网/ 问答频道 /正文

很抱歉这个奇怪的“问题标题”,但我想不出一个合适的标题。在

我不熟悉NLP概念,所以我使用了NER demo(http://cogcomp.cs.illinois.edu/demo/ner/results.php)。现在的问题是,“如何以及以什么方式”我可以使用NER做的这些标记。我的意思是,从这些已标记在特定组中的命名实体(位置、人员、组织等)中可以得出什么答案或推论。如果我有一个数据,其中有全新的公司、地点等名称,那么我该如何为这样的数据做这些标记?在

请不要投否决票或阻止我,我只需要指导/专家的建议就这样。阅读一个概念是另一回事,而能够知道何时何地应用它是另一回事,这也是我寻求指导的地方。多谢了!!!在

来自演示:-在

狗已经在货物区使用了一段时间,但最近才被引入 LOC NewarkLOC JFK机场的乘客区。LOC JFK有一只狗,LOC Newark有一只狗 一把,每法布斯蒂说。在


Tags: 数据标记http概念标题nlpdemocs
2条回答

我认为你的问题有两个部分:

净入学率的目的是什么?

这是一个巨大的问题,通常用于信息检索(IR)任务,如索引、文档分类、知识库填充(KBP),但也有许多其他任务(语音识别、翻译)。。。很难找出一份详尽的清单。。。在

如何扩展我们也能识别新的/未知的实体?

例如,我们如何识别从未被NER系统发现的实体。一目了然,有两种解决方案可能奏效:

  • 假设你有一些链接的数据库定期更新:而系统可能依赖于通用类别。例如,假设“玛丽娜·席尔瓦”出现在新闻中,现在被添加到与“政治家”相关的词汇中。因为这个系统知道每个政客都应该被标记为一个人,也就是说,不依赖词汇项而是类别,因此会将“Marina Silva”标记为PERS命名的实体。你不需要重新训练整个系统,只是为了更新它的词典。在
  • 利用形态学和上下文线索,系统可以猜测从未见过(也不在词典中)的新命名实体。例如,像“总统候选人XXX YYY”(或“Marina YYY”)这样的规则将猜测“XXX YYY”(或仅“YYY”)是PERS(或PERS的一部分)。大多数情况下,这涉及概率建模。在

希望这有帮助:)

通常,内线是管道中的一个步骤。例如,一旦所有实体都被标记了,如果您有许多句子,如[PER John Smith], CEO of [ORG IBM] said...,那么您就可以建立一个公司和ceo表。这是knowledge base population的一种形式。在

不过,还有很多其他用途,这取决于您已经拥有的数据类型以及您要实现的目标。在

相关问题 更多 >