测量两篇长文本之间的相似性

2024-09-30 04:33:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图复制科恩最近的工作报告(懒惰的价格)。在

本文的主要观点是“发布与过去一年相似性较低的财务信息披露的公司可能表现出更差的平均业绩”

为了度量相似性,他使用了四种相似性度量:Cosine、Jaccard、Sim mu MinEdit、Sim\u Simple。在

我相信前两种方法被广泛使用,因此与之相关的方法已经相当成熟。在

然而,最后两个似乎相当模棱两可。在

对于Sim mu MinEdit,他解释说,它是通过计算将一个文档转换为另一个文档所需的最小操作数来计算的。(例如,从'We Expected demand to increase'到'We Expected demand in sales'需要删除“demand”、“to”和“increase”,而应添加“We expect demand to increase'和“We expect demand in sales”。)

它看起来非常类似于编辑距离,例如Levenshtein Distance。然而,就我所寻找的,互联网上所有关于Levenshtein的资料都是在“字符级别”上计算出来的。在

“用我的基本原理来计算相似性有没有?”

其次,simu Simple使用microsoftwords中的“Track Changes”或Unix/Linux终端中的“diff”函数。我发现python上的Difflib-SequenceMatcher也做同样的工作。然而,当我试图在单词级别衡量相似性时,我使用

SequenceMatcher(None, doc1.split(), doc2.split()).ratio())

而不是

^{pr2}$

其中doc1和doc2是文本。在

我知道stackoverflow不适合这种问题,但是,由于我自己在网上找不到任何相关的信息,所以我一直在这里,我正在寻求一些帮助。。!!在


Tags: to方法in文档信息度量simsimple

热门问题