<p>使用pandas重复数据消除包:<a href="https://pypi.org/project/pandas-dedupe/" rel="nofollow noreferrer">https://pypi.org/project/pandas-dedupe/</a></p>
<p>您需要使用人工输入训练分类器,然后它将使用学习的设置来匹配整个数据帧。在</p>
<p>首先<code>pip install pandas-dedupe</code>然后尝试以下操作:</p>
<pre><code>import pandas as pd
import pandas_dedupe
df1=pd.DataFrame({'ID':[56,98,175],
'Name':['aaeessa', '1o7v9sM', 'HP. part 1']})
df2=pd.DataFrame({'ID':[12,76,762,2],
'Name':['H.P paRt 1', 'aa3esza', 'stakoverfl ', 'lo7v9Sm']})
#initiate matching
df_final = pandas_dedupe.link_dataframes(df1, df2, ['Name'])
# reset index
df_final = df_final.reset_index(drop=True)
# print result
print(df_final)
ID Name cluster id confidence
0 98 1o7v9sm 0.0 1.000000
1 2 lo7v9sm 0.0 1.000000
2 175 hp. part 1 1.0 0.999999
3 12 h.p part 1 1.0 0.999999
4 56 aaeessa 2.0 0.999967
5 76 aa3esza 2.0 0.999967
6 762 stakoverfl NaN NaN
</code></pre>
<p>您可以看到匹配的对被分配了一个集群和置信级别。不匹配的是<code>nan</code>。你现在可以随意分析这些信息了。也许只拿置信度在80%以上的结果为例。在</p>