我在df1中有文本列,在df2中有文本列。df2的长度将不同于df1的长度。 我想计算df1[text]中每个条目与df2[text]中每个条目的余弦相似性,并为每个匹配项打分。你知道吗
样本输入
df1
mahesh
suresh
df2
surendra
mahesh
shrivatsa
suresh
maheshwari
样本输出
mahesh surendra 30
mahesh mahesh 100
mahesh shrivatsa 20
mahesh suresh 60
mahesh maheshwari 80
suresh surendra 70
suresh mahesh 60
suresh shrivatsa 40
suresh suresh 100
suresh maheshwari 30
当我试图使用tf-idf方法匹配这两个列以获得相似性时,我遇到了一些问题(得到了关键错误),因为这些列的长度不同。 有没有其他方法可以解决这个问题。。。 任何帮助都将不胜感激。 我搜索了很多,发现在几乎所有的情况下,人们都会将第一个文档与同一个语料库中的其他文档进行比较。 这就像是比较语料库1中的每一个文档和语料库2中的每一个文档。你知道吗
有许多不同的弦距离度量。我不能确定如何在这种情况下使用余弦相似性,尽管我建议查看^{} 库。你知道吗
我将举一个例子,说明如何使用最适合于短字符串的
Jaro-Winkler
度量来解决这个问题。你知道吗另外,我还包括了我使用
cosine similarity
的尝试,该示例来自上述库的文档。你知道吗这可能是完全错误的,但应该让您大致了解如何从两列不同长度的笛卡尔积生成数据帧,以及如何将
strsim
的算法应用于pd.DataFrame
中存储的数据数据准备:
退货:
雅罗·温克勒:
退货:
余弦相似性:
退货:
相关问题 更多 >
编程相关推荐