上下文名称和实体识别与空间如何?

2024-09-29 01:34:45 发布

您现在位置:Python中文网/ 问答频道 /正文

对于一个新项目,我需要从网页中提取信息,更精确地压印信息。我使用brat来标记文档,并已开始使用spacy和NER进行第一次实验。有很多关于这方面的视频和教程,但仍然有一些基本问题。 是否可以包含实体的上下文

示例文本:

Responsible for the content:

The Good Company GmbH 0331 Berlin

You can contact us via +49 123 123 123.

This website was created by good design GmbH, contact +49 12314 453 5.

斯帕西很擅长提取电话号码。根据我最近的测试,错误率不到百分之二。在250个标记文档之后,我已经能够实现这一目标,同时我已经标记了450个文档,我的目标是大约5000个文档。 现在谈谈实际问题。相关的只有“对内容负责”一句中显示的电话号码,其他电话号码不相关。 我现在可以想象把这些介绍性的句子训练成实体,因为它们在某种程度上总是相似的。但是我怎样才能创建上下文呢?是否已经有基于NER的模型可以做到这一点? 也许有人已经在某个地方读到了一些提示或关于它的东西?作为初学者,跨栏相对较高,因为材料很深(很少玩文字游戏)

来自德国的问候


Tags: 项目文档标记实体信息网页目标视频
1条回答
网友
1楼 · 发布于 2024-09-29 01:34:45

如果我正确理解您的问题和用例,我将建议以下方法:

  • 训练/设计一个能够识别所有电话号码的系统-看起来你已经掌握了
  • Train a text classifier识别“对内容负责”的句子
  • 实施一些启发式(可能是基于规则的?)以确定任何已识别的电话号码是否连接到任何预测的“负责内容”句子-可能使用简单的功能,如句子之间的句子数量、句子后的第一个电话号码等

因此,基本上我建议分别解决每个NLP挑战,然后在整个文档中连接信息

相关问题 更多 >