我需要检查列表中的两个或更多单词是否相似。 为此,我使用Jaro-Crenker距离,如下所示:
from similarity.jarowinkler import JaroWinkler
word1='sweet chili'
word2='sriracha chilli'
jarowinkler = JaroWinkler()
print(jarowinkler.similarity(word1, word2))
它似乎能够检测单词之间的相似性,但我需要设置一个阈值,仅选择80%相似的单词。 然而,我的困难在于检查数据框列中的所有单词:
Words
sweet chili
sriracha chilli
tomato
mayonnaise
water
milk
still water
sparkling water
wine
chicken
beef
...
我想做的是: -从第一个元素开始,检查此元素与其他元素之间的相似性;如果相似度大于阈值(80%),则将其保存在新数组中; -如上所述,检查第二个元素(sriracha辣椒); -等等
你能告诉我如何运行这样一个类似的循环吗
new_df = pd.DataFrame({'Words': df.Words})
请参阅大于80%的值
添加热图
相关问题 更多 >
编程相关推荐