我有一个csv,它包含许多行,其中有一些重复的'gmc_number'
。有些条目有两个相同的gmc\ U编号,有些条目有两个以上
对于每一组重复项,我想根据一组条件将行分配到delete
类别或keep
类别,如下所示:
1.登录日期:
如果只有一行具有非空的登录名,则将其标记为keep
,其余的标记为delete
如果不止一行具有非空的login_dt
,则继续对这些行执行步骤2,并将任何具有空login_dt
的行标记为delete
如果所有行都有空的login_dt
,那么不要标记任何行,继续使用这些行执行步骤2
2.散列
如果只有一行具有非空的hash
,则将其标记为keep
,其余的标记为delete
如果不止一行具有非空的hash
,则继续使用这些值执行步骤3,并将任何具有空hash
的行标记为delete
如果所有行都有空的hash
,那么不要标记任何行,继续使用这些行执行步骤3
3.寄存器
现在我们要按最新的register_dt
排序。将最新的register_dt
行标记为keep
,其余的标记为delete
我认为python是一种很好的方法。但我不知道我该如何在一组复制品上执行此操作。任何指导都将不胜感激
目前没有回答
相关问题 更多 >
编程相关推荐