我对Python相当陌生,我尝试使用fuzzywuzzy进行模糊匹配。我相信我用部分比率函数得到的分数不正确。下面是我的探索代码:
>>>from fuzzywuzzy import fuzz
>>>fuzz.partial_ratio('Subject: Dalki Manganese Ore Mine of M/S Bharat Process and Mechanical Engineers Ltd., Villages Dalki, Soyabahal, Sading and Thakurani R.F., Tehsil Barbil, Distt, Keonjhar, Orissa environmental clearance','Barbil')
50
我认为这应该返回100分,因为第二个字符串“Barbil”包含在第一个字符串中。当我尝试在第一个字符串的结尾或开头去掉几个字符时,我得到的匹配分数是100。在
^{pr2}$当第一根弦的长度变为199时,它似乎从50分变为100分。有人对可能发生的事情有什么见解吗?在
这是因为当其中一个字符串是200 characters or longer, an automatic junk heuristic gets turned on in python's SequenceMatcher。 此代码应适用于您:
相关问题 更多 >
编程相关推荐