找到相似文本的最佳匹配,只保留唯一值

2024-09-27 07:29:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个项目名称列表,我已经试图清理,但他们包含轻微不匹配的重复。我要找到它们最近的匹配项,并用此匹配项替换所有匹配项。你知道吗

我正在使用Python和Pandas,并导入了一个文件,其中有一列嵌入了项目名称。我做了一些清理,删除了额外的字符来提取项目名称。但有些名称出现了轻微的不匹配。我很难找到最接近的匹配,但它返回两个值,最好的匹配就是它自己。你知道吗

      Project Name  
552   Hilton International
553   Hilton International A

key = df2.iloc[552:553]['Project Name'].tolist()
key = key[0]
difflib.get_close_matches(key, df2['Project Name'].tolist())

预期结果:

      Project Name  
552   Hilton International
553   Hilton International

Tags: 文件keynameproject名称pandas列表字符

热门问题