从datafram中删除类似的字符串重复项

2024-10-04 03:26:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个df,现在看起来像这样:

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

我正在尝试删除这些变体以实现类似的效果

Car Name      Number
Adam Leaf     9
Claire Green  3

Tags: namenumberdfgreen变体nancar效果
2条回答

这里有一条从jellyfish

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0

这可以通过计算Levenshtein距离来解决,甚至可以更好地使用fuzzyfuzzy库

https://www.datacamp.com/community/tutorials/fuzzy-string-python

相关问题 更多 >