我有像你在下面看到的文件,定期交付给我的数据
2018-11-06 00 46 3574
2018-11-06 01 21 1667
2018-11-06 02 22 1650
我经常在随后的文件中得到重复的文件,我用如下方法处理这些文件:
df2=df.dropDuplicates()
我的问题是,有时我会得到一个值,它是前2列的副本,但第3列和第4列是不同的。所以在两个不同的文件中我可能会得到:
FILE 1
2018-11-06 01 21 1667
FILE 2
2018-11-06 01 23 1682
然后我的数据帧看起来像这样:
2018-11-06 00 46 3574
2018-11-06 01 21 1667
2018-11-06 01 23 1682
2018-11-06 02 22 1650
当这种情况发生时,我希望前2列的值是唯一的,我希望通过将值最高的行保留在第4列来实现这一点。所以我希望我的数据在我完成时是这样的:
2018-11-06 00 46 3574
2018-11-06 01 23 1682
2018-11-06 02 22 1650
我不知道怎么做。感觉我需要利用一个窗口,但我不知道怎么做。你知道吗
实现这一点最直接的方法是使用
rank()
。我还没有测试它,但下面是一些主要的功能代码,它应该让你95%的方式。你知道吗相关问题 更多 >
编程相关推荐