对于一个新项目,我需要从网页中提取信息,更精确地压印信息。我使用brat来标记文档,并已开始使用spacy和NER进行第一次实验。有很多关于这方面的视频和教程,但仍然有一些基本问题。 是否可以包含实体的上下文
示例文本:
Responsible for the content:
The Good Company GmbH 0331 Berlin
You can contact us via +49 123 123 123.
This website was created by good design GmbH, contact +49 12314 453 5.
斯帕西很擅长提取电话号码。根据我最近的测试,错误率不到百分之二。在250个标记文档之后,我已经能够实现这一目标,同时我已经标记了450个文档,我的目标是大约5000个文档。 现在谈谈实际问题。相关的只有“对内容负责”一句中显示的电话号码,其他电话号码不相关。 我现在可以想象把这些介绍性的句子训练成实体,因为它们在某种程度上总是相似的。但是我怎样才能创建上下文呢?是否已经有基于NER的模型可以做到这一点? 也许有人已经在某个地方读到了一些提示或关于它的东西?作为初学者,跨栏相对较高,因为材料很深(很少玩文字游戏)
来自德国的问候
如果我正确理解您的问题和用例,我将建议以下方法:
因此,基本上我建议分别解决每个NLP挑战,然后在整个文档中连接信息
相关问题 更多 >
编程相关推荐