对cs中的重复项进行优先级排序

2024-06-28 19:23:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个csv,它包含许多行,其中有一些重复的'gmc_number'。有些条目有两个相同的gmc\ U编号,有些条目有两个以上

对于每一组重复项,我想根据一组条件将行分配到delete类别或keep类别,如下所示:

1.登录日期:

如果只有一行具有非空的登录名,则将其标记为keep,其余的标记为delete

如果不止一行具有非空的login_dt,则继续对这些行执行步骤2,并将任何具有空login_dt的行标记为delete

如果所有行都有空的login_dt,那么不要标记任何行,继续使用这些行执行步骤2

2.散列

如果只有一行具有非空的hash,则将其标记为keep,其余的标记为delete

如果不止一行具有非空的hash,则继续使用这些值执行步骤3,并将任何具有空hash的行标记为delete

如果所有行都有空的hash,那么不要标记任何行,继续使用这些行执行步骤3

3.寄存器

现在我们要按最新的register_dt排序。将最新的register_dt行标记为keep,其余的标记为delete


我认为python是一种很好的方法。但我不知道我该如何在一组复制品上执行此操作。任何指导都将不胜感激


Tags: csv标记registernumberdt步骤login条目