Python中文
首页
教程
问答
标签
搜索
登录
注册
如何自动识别同一篇论文的引文?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>考虑引用同一篇论文的三种方法:</p> <pre><code>cite1 = "Yoshua Bengio, Réjean Ducharme, Pascal Vincent and Christian Jauvin, A Neural Probabilistic Language Model (2003), in: Journal of Machine Learning Research, 3(1137--1155)" cite2 = "Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin. (2003) A Neural Probabilistic Language Model" cite3 = "Bengio Y, Ducharme R, Vincent P, Jauvin C. (2003) A Neural Probabilistic Language Model" </code></pre> <p>自动识别同一篇论文的引文的一种简单方法是使用Python标准库中的<code>difflib</code>模块计算这些引文的相似性:</p> <pre><code>from difflib import SequenceMatcher as smatch def similar(x, y): return smatch(None, x.strip(), y.strip()).ratio() similar(cite1, cite2) # 0.721 similar(cite1, cite3) # 0.553 similar(cite2, cite3) # 0.802 </code></pre> <p>不幸的是,相似性度量的范围从0.553到0.802,所以不清楚应该设置什么阈值。如果门槛太低,那么不同论文的引用就可能被误认为是同一篇论文。但如果门槛太高,我们就会错过一些引文。你知道吗</p> <p>有更好的解决方案吗?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>重要的是要考虑<strong>什么使引文独特?</strong></p> <p>根据你的例子,作者、文章标题和发表年份的组合构成了一个独特的引文。你知道吗</p> <p>这意味着您可以解析这些名称,然后比较它们的接近程度(因为第三个示例列出的名称不同)。解析标题,它应该匹配100%。解析年份,也应该是100%匹配。你知道吗</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在乒乓球比赛中预测球的轨迹,对于AI球拍预测?
8 回答
如何在乒乓球游戏中阻止球
1 回答
如何在乘法和模中不乘空间?
1 回答
如何在乘法和除以2个不同的数字之间进行交换?
10 回答
如何在也是数据一部分的单个字符上拆分大字符串
1 回答
如何在乾草堆中找到針,有更好的解決方案嗎?
2 回答
如何在事件wxWidgets中传递自定义数据
1 回答
如何在事件中使用lambda i=i?
6 回答
如何在事件中心只接收最近的数据
8 回答
如何在事件发生之前保持云函数运行?
10 回答
如何在事件发生后使页面重定向到同一页面
7 回答
如何在事件回调之间保持python生成器的状态
9 回答
如何在事件处理程序(pythonsocket、sphinx)中保留docstring
10 回答
如何在事件处理程序中更改wxRichTextCtrl的光标位置?
2 回答
如何在事件处理程序中访问外部对象?
7 回答
如何在事件循环中将协程打包为正常函数?
3 回答
如何在事件循环之外运行协同程序?
9 回答
如何在事件循环结束时为并发未来的所有线程调用类方法?
2 回答
如何在事件文件中只保留一份摘要?
10 回答
如何在事件模板中添加事件
6 回答