使用列值删除部分重复行

2024-06-13 06:04:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试清理有大量部分重复的数据，当Col a中的键有重复项时，只存储第一行数据。你知道吗

    A       B    C     D
0   foo     bar  lor   ips
1   foo     bar      
2   test    do    kin  ret
3   test    do     
4   er      ed    ln    pr

清洗后预期产量

    A       B    C     D
0   foo     bar  lor   ips
1   test    do    kin  ret
2   er      ed    ln    pr

我一直在研究drop\u duplicates甚至group\u by之类的方法，但它们在我的例子中并没有真正的帮助：复制是部分的，因为有些行包含空数据，并且在A列和B列中只有相似的值。按部分工作分组，但不返回转换后的数据，它们只是过滤。你知道吗

我对熊猫很陌生，非常感激。我也许可以在熊猫外面做，但我想可能有更好的方法。你知道吗

编辑：抱歉，刚才注意到我在提供的示例中犯了一个错误。（测试变成了“测试题”

Tags：数据方法 test foo bar col pr do

1条回答

网友

1楼 · 发布于 2024-06-13 06:04:57

在你的情况下，你怎么说部分重复？请提供复杂的例子。在上面的示例中，您可以尝试B列而不是A列

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意：建议的解决方案仅适用于上述样品，当其A列不同且B列值相同时不起作用。