Python Fuzzy Matching（FuzzyWuzzy）-仅保持最佳匹配

import pandas as pd from pandas import DataFrame from fuzzywuzzy import process import csv save_file = open('fuzzy_match_results.csv', 'w') writer = csv.writer(save_file, lineterminator = '\n') def parse_csv(path): with open(path,'r') as f: reader = csv.reader(f, delimiter=',') for row in reader: yield row if __name__ == "__main__": ## Create lookup dictionary by parsing the products csv data = {} for row in parse_csv('names_1.csv'): data[row[0]] = row[0] ## For each row in the lookup compute the partial ratio for row in parse_csv("names_2.csv"): #print(process.extract(row,data, limit = 100)) for found, score, matchrow in process.extract(row, data, limit=100): if score >= 60: print('%d%% partial match: "%s" with "%s" ' % (score, row, found)) Digi_Results = [row, score, found] writer.writerow(Digi_Results) save_file.close()

3条回答

网友

1楼 · 编辑于 2024-09-27 09:31:08

使用FuzzyWuzzy中的process.extractOne()可以大大简化代码的几个部分。它不仅返回顶级匹配，您还可以在函数调用中为它设置分数阈值，而不需要执行单独的逻辑步骤，例如：

process.extractOne(row, data, score_cutoff = 60)

如果找到满足条件的匹配项，此函数将返回最高匹配项的元组加上相应的分数。否则它将返回None。

网友

2楼 · 编辑于 2024-09-27 09:31:08

fuzzywuzzy的process.extract()以相反的顺序返回列表，最好的匹配在前面。

所以为了找到最佳匹配，可以将limit参数设置为1，这样它只返回最佳匹配，如果大于60，就可以像现在这样将其写入csv。

示例-

from fuzzywuzzy import process
## For each row in the lookup compute the partial ratio
for row in parse_csv("names_2.csv"):

    for found, score, matchrow in process.extract(row, data, limit=1):
        if score >= 60:
            print('%d%% partial match: "%s" with "%s" ' % (score, row, found))
            Digi_Results = [row, score, found]
            writer.writerow(Digi_Results)

网友

3楼 · 编辑于 2024-09-27 09:31:08

我只是为自己写了同样的东西但是在熊猫身上。。。。

import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

d1={1:'Tim','2':'Ted',3:'Sally',4:'Dick',5:'Ethel'}
d2={1:'Tam','2':'Tid',3:'Sally',4:'Dicky',5:'Aardvark'}

df1=pd.DataFrame.from_dict(d1,orient='index')
df2=pd.DataFrame.from_dict(d2,orient='index')

df1.columns=['Name']
df2.columns=['Name']

def match(Col1,Col2):
    overall=[]
    for n in Col1:
        result=[(fuzz.partial_ratio(n, n2),n2) 
                for n2 in Col2 if fuzz.partial_ratio(n, n2)>50
               ]
        if len(result):
            result.sort()    
            print('result {}'.format(result))
            print("Best M={}".format(result[-1][1]))
            overall.append(result[-1][1])
        else:
            overall.append(" ")
    return overall

print(match(df1.Name,df2.Name))

我已经使用了50的阈值-但它是可配置的。

数据框架1看起来像

    Name
1   Tim
2   Ted
3   Sally
4   Dick
5   Ethel

数据框架2看起来像

Name
1   Tam
2   Tid
3   Sally
4   Dicky
5   Aardvark

所以运行它会产生

['Tid', 'Tid', 'Sally', 'Dicky', ' ']

希望这有帮助。

相关问题更多 >

编程相关推荐

热门问题

热门文章