上下文名称和实体识别与空间如何？ - 问答 - Python中文网

上下文名称和实体识别与空间如何？

2024-09-29 01:34:45 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

对于一个新项目，我需要从网页中提取信息，更精确地压印信息。我使用brat来标记文档，并已开始使用spacy和NER进行第一次实验。有很多关于这方面的视频和教程，但仍然有一些基本问题。是否可以包含实体的上下文

示例文本：

Responsible for the content:
The Good Company GmbH 0331 Berlin
You can contact us via +49 123 123 123.
This website was created by good design GmbH, contact +49 12314 453 5.

斯帕西很擅长提取电话号码。根据我最近的测试，错误率不到百分之二。在250个标记文档之后，我已经能够实现这一目标，同时我已经标记了450个文档，我的目标是大约5000个文档。现在谈谈实际问题。相关的只有“对内容负责”一句中显示的电话号码，其他电话号码不相关。我现在可以想象把这些介绍性的句子训练成实体，因为它们在某种程度上总是相似的。但是我怎样才能创建上下文呢？是否已经有基于NER的模型可以做到这一点？也许有人已经在某个地方读到了一些提示或关于它的东西？作为初学者，跨栏相对较高，因为材料很深（很少玩文字游戏）

来自德国的问候

Tags：项目文档标记实体信息网页目标视频

1条回答

网友

1楼 · 发布于 2024-09-29 01:34:45

如果我正确理解您的问题和用例，我将建议以下方法：

训练/设计一个能够识别所有电话号码的系统-看起来你已经掌握了
Train a text classifier识别“对内容负责”的句子
实施一些启发式（可能是基于规则的？）以确定任何已识别的电话号码是否连接到任何预测的“负责内容”句子-可能使用简单的功能，如句子之间的句子数量、句子后的第一个电话号码等

因此，基本上我建议分别解决每个NLP挑战，然后在整个文档中连接信息

相关问题更多 >

编程相关推荐

热门问题

热门文章