我正在处理书面文本(文章和书籍的段落),包括地点和日期。我想从包含相互关联的位置和日期的文本对中提取。例如,给定以下短语:
该男子于1月离开阿姆斯特丹,10月21日抵达尼泊尔
我会有这样的输出:
>>>[(Amsterdam, January), (Nepal, October 21st)]
我试着通过“连接词”(例如“和”)来拆分文本,并按照以下部分进行工作:查找表示位置的词(“在”、“在”、“从”、“到”等)和表示日期或时间的词(“在”、“在”等),然后加入您找到的内容。然而,这被证明是有问题的,因为有太多的单词表示位置和日期,有时基本的“查找”方法无法区分它们
假设我能够识别一个日期,并且给定一个以大写字母开头的单词,我能够确定它是否是一个位置。主要问题是它们之间的联系,并确保它们是相互关联的
我想像ntlk和scapy这样的工具在这里会对我有所帮助,但是没有足够的文档来帮助我找到这类问题的精确解决方案
任何帮助都将不胜感激
这似乎是一个命名实体识别问题。以下是相同的步骤。有关详细了解,请参阅this文章
注意:请确保将所有路径更新为本地计算机上的路径
这种方法适用于大多数情况
相关问题 更多 >
编程相关推荐