Python字符串相似性（具有复杂性）

1条回答

网友

1楼 · 发布于 2024-06-26 10:12:31

您正在寻找gensim或fuzzywuzzy包。你知道吗

在这个特定的例子中，您可能倾向于fuzzywuzzy，因为您只是尝试进行字符串匹配。你知道吗

gensim更多用于计算文档、段落、句子、单词、语料库等的相似度分数和向量表示。。。目标是捕捉语义/主题意义，而不是字面字符串匹配。你知道吗

因此，在您的情况下，使用模糊字符串匹配，您可以：

from fuzzywuzzy import fuzz

fuzz.partial_ratio('Shining', 'The shins')
>>> 50 

fuzz.partial_ratio('Shining', 'Shining, The')
>>> 100

fuzz.partial_ratio('Shining', 'unrelated')
>>> 14

partial_ratio函数区分大小写，因此您可能希望将所有输入都小写。它将输出0到100之间的分数（100是一个非常强的匹配）。这取决于你如何从中筛选出匹配项，也许可以使用一个阈值：if score > 75: its a match。你知道吗

我建议您研究一下fuzzywuzzy包中的不同函数，看看什么最适合您的情况。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python字符串相似性（具有复杂性）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >