计算两者之间的相似性txt文件

2024-09-29 17:17:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个不同单词的文本文件。重要的是,文本文件只包含单词而不包含句子。 所以第一个文件可以如下:xyz, acbe, eidjh, eheha.

我想计算这两个文本文件之间的相似性。我想以%的比例来显示结果,也可以用哪个词来表示这个相似度的结果。你知道吗

我读过关于余弦相似性的文章,但我不确定这是否适用于我的问题!你知道吗


Tags: 文件文章相似性单词比例句子文本文件xyz
1条回答
网友
1楼 · 发布于 2024-09-29 17:17:05

一个简单的解决方案是,在读取文件并将其拆分为单词后,只需循环浏览这些文件,首先将它们分配到字典以计算每个文件出现的次数,然后计算相对比率,检查哪些单词同时出现在两个文件中,并计算最终比率:

temp1 = open('yourfile1.txt')
file1 = temp1.read().split(',')
temp1.close()
temp2 = open('yourfile2.txt')
file2 = temp2.read.split(',')
dict1 = {x : file1.count(x) for x in file1}
dict2 = {x : file2.count(x) for x in file2}
similars = set(file1).intersection(set(file2))
rate1 = sum(dict1[w] for w in similars)/len(file1)
rate2 = sum(dict2[w] for w in similars)/len(file2)
print("The rate of similarity is: ", rate1*rate2*100, '%')
print("The similar words are: ", similars)

当然,yourfile1.txtyourfile2.txt是文件名。你知道吗

相关问题 更多 >

    热门问题