像Zemanta和Open Calais这样的内容发现引擎是如何工作的？问题的回答

像Zemanta和Open Calais这样的内容发现引擎是如何工作的？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

来自OpenCalais的Michal Finkelstein。在 首先，谢谢你的关心。我会在这里回复，但我也鼓励你在OpenCalais论坛上阅读更多；那里有很多信息，包括但不限于： <a href="http://opencalais.com/tagging-information" rel="noreferrer">http://opencalais.com/tagging-information</a> <a href="http://opencalais.com/how-does-calais-learn" rel="noreferrer">http://opencalais.com/how-does-calais-learn</a> 也请随时关注我们的Twitter（@OpenCalais）或发送电子邮件至team@opencalais.com在 现在来回答： OpenCalais基于自然语言处理和文本分析领域十年的研究和开发。在 我们支持完整的“NLP堆栈”（我们喜欢这样称呼它）：从文本标记化，形态分析和词性标注，到浅层句法分析和识别名词性和动词性短语。在 当我们寻找实体时，语义起作用（又称实体提取，命名实体识别）。为此，我们有一个复杂的基于规则的系统，它结合了发现规则以及词典/词典。这种组合允许我们识别公司/个人/电影等的名称，即使它们不存在于任何可用列表中。在 对于最突出的实体（如人、公司），我们也在文章级别执行回指解析、交叉引用和名称规范化/规范化，因此我们知道“John Smith”和“Mr.Smith”可能指的是同一个人。所以你问题的简短回答是-不，这不仅仅是针对大型数据库的匹配。在 事件/事实非常有趣，因为它们使我们的发现规则更深入一层；我们发现实体之间的关系，并用适当的类型标记它们，例如M&A（两个或多个公司之间的关系）、雇佣变化（公司和人之间的关系）等等。不用说，事件/事实提取对于完全基于词典的系统是不可能的。在大多数情况下，我们的系统被调整为以精度为导向，但我们总是试图在准确性和整体性之间保持合理的平衡。在 顺便说一句，本月晚些时候会有一些很酷的新元数据功能，所以请继续关注。在 谨致问候 米哈尔

像Zemanta和Open Calais这样的内容发现引擎是如何工作的？

1 个回答

相关Python问题