有一个名为fuzzy_pandas的包,可以使用levenshtein进行比率字符串匹配。有一些很好的例子here
例如:
import pandas as pd
import fuzzy_pandas as fpd
df1 = pd.DataFrame({'Key':['Apple', 'Banana', 'Orange', 'Strawberry']})
df2 = pd.DataFrame({'Key':['Aple', 'Mango', 'Orag', 'Straw', 'Bannanna', 'Berry']})
results = fpd.fuzzy_merge(df1, df2,
left_on='Key',
right_on='Key',
method='levenshtein',
threshold=0.6)
results.head()
所以,我不知道是否有可能在结果中显示阈值
输出为:
Key Key
0 Apple Aple
1 Banana Bannanna
2 Orange Orag
我想要像这样的东西:
Key Key Ratio
0 Apple Aple 0.81
1 Banana Bannanna 0.87
2 Orange Orag 0.78
Maybe with another library
目前没有回答
相关问题 更多 >
编程相关推荐