我正在尝试清理有大量部分重复的数据,当Col a中的键有重复项时,只存储第一行数据。你知道吗
A B C D
0 foo bar lor ips
1 foo bar
2 test do kin ret
3 test do
4 er ed ln pr
清洗后预期产量
A B C D
0 foo bar lor ips
1 test do kin ret
2 er ed ln pr
我一直在研究drop\u duplicates甚至group\u by之类的方法,但它们在我的例子中并没有真正的帮助:复制是部分的,因为有些行包含空数据,并且在A列和B列中只有相似的值。 按部分工作分组,但不返回转换后的数据,它们只是过滤。你知道吗
我对熊猫很陌生,非常感激。我也许可以在熊猫外面做,但我想可能有更好的方法。你知道吗
编辑:抱歉,刚才注意到我在提供的示例中犯了一个错误。(测试变成了“测试题”
在你的情况下,你怎么说部分重复?请提供复杂的例子。在上面的示例中,您可以尝试B列而不是A列
可以从以下代码段获得预期的输出
注意:建议的解决方案仅适用于上述样品,当其A列不同且B列值相同时不起作用。
相关问题 更多 >
编程相关推荐