<p>据我所知,你所说的<strong>主题“</strong>是,给出一个句子,一个声明的实体-在你的例子中,客户经理史蒂夫。在</p>
<p>基于这一假设,以下是一些技巧及其对您的帮助:</p>
<p><strong>(依赖)分析</strong></p>
<p>由于您不是严格语法意义上的主语,因此<em>user7344209</em>基于依赖分析的方法可能帮不了你。在“我喜欢史蒂夫”这样的句子中,语法主语是“我”,尽管你可能想把“史蒂夫”当作“主语”。在</p>
<p><strong>命名实体识别</strong></p>
<p>你已经用过了,如果能检测到像史蒂夫这样的人的名字,那就太棒了。我不太确定的是“客户经理”的例子。Daniel提供的输出和我自己对Stanford CoreNLP的测试都没有将其识别为一个名为<strong>的实体-这是正确的,它确实不是一个名为<em>的</em>实体:</p>
<p><a href="https://i.stack.imgur.com/WcupE.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/WcupE.png" alt="enter image description here"/></a></p>
<p>一些更宽泛的东西,如建议的<strong>提及标识</strong>可能更好,但它基本上标记了每个可能过于宽泛的名词短语。如果我没听错,你想在每个句子里找到一个主语。在</p>
<p><strong>共指消解</strong></p>
<p>共指消解是检测“Steve”和“account manager”是同一个实体的关键技术。斯坦福大学CoreNLP就有这样的<a href="https://stanfordnlp.github.io/CoreNLP/coref.html" rel="nofollow noreferrer">module</a>。在</p>
<p>为了在你的例子中起作用,你必须让它同时处理几个句子,因为你想找到它们之间的联系。下面是一个示例(简短版本)中的一些示例:</p>
<p><a href="https://i.stack.imgur.com/Cpxjs.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/Cpxjs.png" alt="enter image description here"/></a></p>
<p>可视化有点混乱,但基本上发现了以下共指链:</p>
<ul>
<li>史蒂夫•史密斯</li>
<li>史蒂夫我们的客户经理,他是我们的客户经理</li>
<li>我们的</li>
<li>额外的一英里</li>
</ul>
<p>考虑到前两个链,以及一些后期处理,您可以发现所有四个语句都是关于同一个实体的。在</p>
<p><strong>语义相似度</strong></p>
<p>在account、business和relationship manager的例子中,我发现CoreNLP共指解析程序实际上已经找到了链,尽管术语不同。在</p>
<p>更一般地说,如果您认为共指消解器不能很好地处理同义词和释义,您还可以尝试包含语义相似性度量。在自然语言处理中,有大量的工作要做,即预测两个短语是否同义。在</p>
<p>一些方法是:</p>
<ul>
<li>在诸如Wordnet这样的同义词词典中查找同义词-例如使用nltk(python),如图<a href="https://stackoverflow.com/questions/36634000/finding-the-synonyms-for-words-in-wordnet">here</a></li>
<li>更好的是,根据WordNet中定义的关系计算一个相似性度量-例如使用<a href="http://deeptutor2.memphis.edu/Semilar-Web/public/semilar-api.html" rel="nofollow noreferrer">SEMILAR</a>(Java)</li>
<li>使用单词的连续表示来计算相似性,例如基于LSA或LDA-SEMILAR也可以</li>
<li>使用最近的神经网络风格的单词嵌入,比如<a href="https://en.wikipedia.org/wiki/Word2vec" rel="nofollow noreferrer">word2vec</a>或{a7}-后者很容易与{a8}(python)一起使用</li>
</ul>
<p>使用这些相似性度量的一个想法是识别两个句子中的实体,然后对两个句子中的实体进行两两比较,如果一对句子的相似度高于阈值,则将其视为同一个实体。在</p>