擅长:python、mysql、java
<p>我建议您不要合并命名实体和POS信息。大多数研究表明POS(或其他一些形态和/或大写特征)对于检测命名实体是有价值的。由于您可以非常安全地使用自动POS标记器(除非您处理嘈杂的文本),您可能会得到以下结果:</p>
<pre><code>Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.
</code></pre>
<p>其中POS级别将自动标记,而您可以手动注释委托人和承包商。还要注意,大多数人使用<a href="http://code.google.com/p/cleartk/wiki/TutorialNamedEntityChunkingClassifier" rel="nofollow">BIO format</a>来标记命名实体。在</p>
<p>请记住,识别组织通常是相当困难的——至少比人员和地点更难。除非您有一个预定义的组织列表,否则需要使用大型词典。直觉上,我想你可以把你的任务分为:</p>
<ol>
<li>识别和过滤组织(ORG),例如使用一个NER标签</li>
<li>注入额外的处理(模式/语法/语义)</li>
<li>实施第二个模型,转换委托人或承包商的相关组织</li>
</ol>