我正在检查Python中文本的相似性。我有大约100条记录的数据集,并准备了一个用于检查相似性的函数——它有两个参数,用于两组单词
def getSimilarity(a, b):
x = set(a)
y = set(b)
z = x.intersection(y)
return float(len(z)) / (len(x) + len(y) - len(z))
我的数据帧:
1 ['a','b','c','d'] other columns
2 ['a','h','e','f'] other columns
3 ['3','b','c','g'] other columns
4 ['y','b','c','z'] other columns
5 ['h','b','j','k'] other columns
我想创建一个方法,该方法将对给定行的数据帧进行迭代,并找出两条最相似的记录。
例如checkSimilarity(1)
或checkSimilarity(df['col'][1])
用于数据帧中的索引1,并将[3, 4]
作为最相似的
目前没有回答
相关问题 更多 >
编程相关推荐