<p>除了神经网络和自然语言处理,这将是一个相当。。。复杂的方法,我会通过预处理数据来解决这个问题。你知道吗</p>
<p>你能做的事情很少:</p>
<pre><code>- Create Short names Yoshua Bengio => Bengio Y
- Normalize the names: Réjean Ducharme -> rejean ducharme
- Extract author part of the string, title part of the string, and the "leftovers". Calculate similarity for each of the parts and average the result.
- Extract the year of the publication and make it a three variable problem.
- Use additional metadata if available (paper field, citation index, etc.
</code></pre>
<p>如果您的问题仅限于这三种书目类型,则上述方法有效。你知道吗</p>
<p>如果你在参考书目中有很大的差异(即应用于整个springer/ieee数据库),你应该研究机器学习方法。你知道吗</p>
<p>虽然我无法在脑海中提出一个正确的模型,但我记得<a href="http://ants.iis.sinica.edu.tw/3BkMJ9lTeWXTSrrvNoKNFDxRm3zFwRR/55/Sentence%20Similarity%20Based%20on%20Semantic%20Nets%20and%20corpus%20statistics.pdf" rel="nofollow noreferrer">this</a>论文离你的问题很近。你知道吗</p>
<p>在其他方法中,如果你有一个大的书目数据集,你可以尝试像word2vec/node2vec或kmeans这样的半监督方法,看看后续的相似度评分是否足够准确。你知道吗</p>
<p>一句忠告。</strong></p>
<ul>
<li><p>在某些情况下,来自同一研究团队的论文名称非常相似,或者当长论文名称不同时,短论文名称相同。Xu可以是<code>Wang Xu</code>或<code>Wei Xu</code>都被转录到<code>Xu W.</code>。</p></li>
<li><p>在其他情况下,相同的作者有不同的名字<code>Réjean Ducharme</code>和<code>Rejean Ducharme</code></p></li>
<li><p>论文标题可以有变化:<code>Conference of awesome discoveries</code>和<code>Awesome discoveries, conference of</code></p></li>
</ul>