第一:有关于如何修改标题的建议吗?在
我使用我自己的命名实体识别算法来解析纯文本中的数据。具体地说,我正试图提取律师执业领域。我看到的一个常见的句子结构是:
1)Neil专注于就业、税务和版权诉讼。在
或者
2)Neil专注于一般公司事务,包括证券、商业组织、合同准备和知识产权保护。在
我的实体提取很好地找到了关键词,例如,我从第一句话中得到的输出可能如下所示:
尼尔的工作重点是(雇佣),(税务)和(版权诉讼)。在
不过,这对我没什么帮助。更有用的是,如果我得到的输出更像这样:
尼尔的工作重点是(雇佣诉讼),(税务诉讼)和(版权诉讼)。在
有没有一种方法可以使用现有的python框架(比如nltk)来实现这个目标(在我的algo提取练习区域之后)我可以使用ntlk来提取我的“练习区域”修改的其他单词以获得更完整的图片吗?在
Named entity recognition(NER)系统通常使用基于语法的规则或统计语言模型。不过,您在这里所描述的似乎只是基于关键字。在
通常,和大多数复杂的NLP任务一样,NER系统应该根据特定于域的数据进行训练,以便在以前看不到的(测试)数据上表现良好。你需要足够的机器学习知识才能走上这条道路。在
在“普通”语言中,如果您想提取单词或短语并将它们分类到您定义的类中(例如诉讼),如果在外部本体论中使用类别标签通常是有意义的。例如:
这样的分类(即检测一个词是否真的与体育有关)并不是一个“普遍”的问题。这意味着你找不到现成的可以解决问题的系统(例如NLTK库中的算法)。但是,您可以使用像Wikipedia这样的本体,并利用那里可用的类别标签。在
请注意,wikipedia类别标签形成了一个有向图。如果您构建了一个利用这样一个本体的类别结构的系统,那么您应该能够在您认为合适的情况下对文本中的术语进行分类。此外,您甚至可以控制分类的粒度(例如,您只想要“运动”,还是“个人运动”和“团队运动”)。在
我已经建立了这样一个系统来对与计算机科学相关的术语进行分类,而且效果非常好。以类似方式工作的最近的免费可用系统是伊利诺伊大学香槟分校认知计算小组建立的Wikifier。在
注意事项:您可能需要调整一个简单的基于类别的代码,以满足您的需要。E、 维基百科没有“诉讼”页面。相反,它会将你重定向到一个名为“诉讼”的页面。这类案件需要分开处理。在
最后一点说明:这个解决方案实际上不在NLP领域,但我过去的经验表明,对于某些领域,这种基于本体的方法非常有效。另外,我在回答中使用了“体育”这个例子,因为我对法律术语一无所知。但我希望我的例子能帮助您理解基本过程。在
看看CogComp NER tagger: https://github.com/CogComp/cogcomp-nlp/tree/master/ner
我不认为你的“算法”是在做实体识别。。。但是,如果你提出了一个问题,你想做的看起来像是在包含省略号的协调结构中的共指消解。一点也不容易:从谷歌上搜索语言学和计算语言学的相关文献开始。我使用以下字段中的标准术语。在
实际上,您可以从指定最近的先行词(英语中最常用的方法)开始。举个例子:
首先提取句子中的所有“实体”
从实体列表中,确定先前的候选人(“诉讼”等)。这是一项非常困难的任务,涉及许多不同的问题。。。如果你事先知道你感兴趣的“实体”,你可以避免它。
最后,将每个回指/下指指定(解析)到最近的先行词。
相关问题 更多 >
编程相关推荐