Python:Fuzzywuzzy对外国字符不起作用

2024-06-28 10:57:43 发布

您现在位置:Python中文网/ 问答频道 /正文

当我尝试一个包含外来字符的简单fuzzyfuzzy表达式时,使用工艺提取酮方法(我尝试过使用和不使用u):

>>> choices= [u"הלכות חנוכה",u"הלכות פורים",u"הלכות סוכה"]
>>> process.extractOne("הלכות סוכה", choices)
(u'\u05d4\u05dc\u05db\u05d5\u05ea \u05d7\u05e0\u05d5\u05db\u05d4', 0)

但它运行平稳模糊比率公司名称:

^{pr2}$

同样的代码也适用于普通字符:

>>> choices= ['this','that','those']
>>> process.extractOne("these", choices)
('those', 80)

有什么问题吗?在


Tags: 方法表达式字符processchoices工艺thoseu05dc
1条回答
网友
1楼 · 发布于 2024-06-28 10:57:43

fuzz.ratio作为scorer=参数传递,并将u添加到要匹配的字符串前面。在

以下工程:

choices= [u"הלכות חנוכה",u"הלכות פורים",u"הלכות סוכה"] process.extractOne(u"הלכות סוכה", choices, scorer=fuzz.ratio)

(u'\u05d4\u05dc\u05db\u05d5\u05ea\u05e1\u05d5\u05db\u05d4',100)

其他人也给出同样的分数:

choices= [u"הלכות חנוכה",u"הלכות פורים",u"הלכות סוכה"] process.extract(u"הלכות סוכה", choices, scorer=fuzz.ratio)

[(u'\u05d4\u05dc\u05db\u05d5\u05ea\u05e1\u05d5\u05db\u05d4',100), (u'\u05d4\u05dc\u05db\u05d5\u05ea\u05d7\u05e0\u05d5\u05db\u05d4',86), \u05u05u05u05u05u05u05u\u05u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u05u\u

fuzzyfuzzy版本:fuzzyfuzzy0.7.0和Python 2.7x

相关问题 更多 >