使用列值删除部分重复行

2024-06-13 06:04:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试清理有大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据。你知道吗

    A       B    C     D
0   foo     bar  lor   ips
1   foo     bar      
2   test    do    kin  ret
3   test    do     
4   er      ed    ln    pr

清洗后预期产量

    A       B    C     D
0   foo     bar  lor   ips
1   test    do    kin  ret
2   er      ed    ln    pr

我一直在研究drop\u duplicates甚至group\u by之类的方法,但它们在我的例子中并没有真正的帮助:复制是部分的,因为有些行包含空数据,并且在A列和B列中只有相似的值。 按部分工作分组,但不返回转换后的数据,它们只是过滤。你知道吗

我对熊猫很陌生,非常感激。我也许可以在熊猫外面做,但我想可能有更好的方法。你知道吗

编辑:抱歉,刚才注意到我在提供的示例中犯了一个错误。(测试变成了“测试题”


Tags: 数据方法testfoobarcolprdo
1条回答
网友
1楼 · 发布于 2024-06-13 06:04:57

在你的情况下,你怎么说部分重复?请提供复杂的例子。在上面的示例中,您可以尝试B列而不是A列

可以从以下代码段获得预期的输出

print (df.drop_duplicates(subset=['B']))

注意:建议的解决方案仅适用于上述样品,当其A列不同且B列值相同时不起作用。

相关问题 更多 >