我有5行,其中类名不同(输入错误),但包含相同的数据。 比如
> classs ...
> Iris-setosa 44 ... 44
> Iris-setossa 1 ... 1
> Iris-versicolor 45 ... 45
> Iris-virginica 50 ... 50
> versicolor 5 ... 5
在这里,我想将Versicolor与iris Versicolor和iris setossa(extra s)合并,并将iris setosa与iris setosa合并
我尝试了.join.concat函数,它们正在将整列和行合并。作为外部联接,内部联接。但是我想把花色当作鸢尾花色,把鸢尾毛当作鸢尾毛
您可以使用pandas-dedupe库删除数据集中的打字错误。
示例代码
如果您有一个干净的名称列表(即公报),您还可以尝试执行公报重复数据消除,通过将杂乱的数据与公报进行匹配来删除重复项。熊猫重复数据消除也支持地名索引重复数据消除
如果您没有太多拼写错误的行,并且这不会是一项乏味的任务,那么您可以使用
str.replace
手动执行:相关问题 更多 >
编程相关推荐