当用户尝试使用搜索栏时,可能会出现很多打字错误。例如,我有一个关于手机品牌名称的数据集
nokia, nakia, nokea,mokia
samsung, samsumg, zamsung
sony, SONY, sonii, ソニー
htc, hTc, hta
我已经将它们分为不同的类别,并使用fuzzyfuzzy计算两个字符串之间的相似性分数
fuzz.ratio("sony", "ソニー") #0
fuzz.ratio("sony", "sany") #75
"ソニー" 实际上是日本的“索尼”,但它无法识别。如何设置它们以使它们具有高度相似性
另外,如果有一个新的字符串名为“somy”,有没有一种可能的方法让它与“sony”一起分类?提前谢谢
目前没有回答
相关问题 更多 >
编程相关推荐