Python:将数据与现有名称匹配

2024-09-29 19:27:19 发布

您现在位置:Python中文网/ 问答频道 /正文

当用户尝试使用搜索栏时,可能会出现很多打字错误。例如,我有一个关于手机品牌名称的数据集

nokia, nakia, nokea,mokia
samsung, samsumg, zamsung
sony, SONY, sonii, ソニー
htc, hTc, hta

我已经将它们分为不同的类别,并使用fuzzyfuzzy计算两个字符串之间的相似性分数

fuzz.ratio("sony", "ソニー")  #0
fuzz.ratio("sony", "sany")   #75

"ソニー" 实际上是日本的“索尼”,但它无法识别。如何设置它们以使它们具有高度相似性

另外,如果有一个新的字符串名为“somy”,有没有一种可能的方法让它与“sony”一起分类?提前谢谢


Tags: 数据字符串用户名称错误相似性手机品牌

热门问题