擅长:python、mysql、java
<p>来自OpenCalais的Michal Finkelstein。在</p>
<p>首先,谢谢你的关心。我会在这里回复,但我也鼓励你在OpenCalais论坛上阅读更多;那里有很多信息,包括但不限于:
<a href="http://opencalais.com/tagging-information" rel="noreferrer">http://opencalais.com/tagging-information</a>
<a href="http://opencalais.com/how-does-calais-learn" rel="noreferrer">http://opencalais.com/how-does-calais-learn</a>
也请随时关注我们的Twitter(@OpenCalais)或发送电子邮件至team@opencalais.com在</p>
<p>现在来回答:</p>
<p>OpenCalais基于自然语言处理和文本分析领域十年的研究和开发。在</p>
<p>我们支持完整的“NLP堆栈”(我们喜欢这样称呼它):
从文本标记化,形态分析和词性标注,到浅层句法分析和识别名词性和动词性短语。在</p>
<p>当我们寻找实体时,语义起作用(又称实体提取,命名实体识别)。为此,我们有一个复杂的基于规则的系统,它结合了发现规则以及词典/词典。这种组合允许我们识别公司/个人/电影等的名称,即使它们不存在于任何可用列表中。在</p>
<p>对于最突出的实体(如人、公司),我们也在文章级别执行回指解析、交叉引用和名称规范化/规范化,因此我们知道“John Smith”和“Mr.Smith”可能指的是同一个人。
所以你问题的简短回答是-不,这不仅仅是针对大型数据库的匹配。在</p>
<p>事件/事实非常有趣,因为它们使我们的发现规则更深入一层;我们发现实体之间的关系,并用适当的类型标记它们,例如M&A(两个或多个公司之间的关系)、雇佣变化(公司和人之间的关系)等等。不用说,事件/事实提取对于完全基于词典的系统是不可能的。
在大多数情况下,我们的系统被调整为以精度为导向,但我们总是试图在准确性和整体性之间保持合理的平衡。在</p>
<p>顺便说一句,本月晚些时候会有一些很酷的新元数据功能,所以请继续关注。在</p>
<p>谨致问候</p>
<p>米哈尔</p>