对cs中的重复项进行优先级排序

2024-06-28 19:23:19 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个csv，它包含许多行，其中有一些重复的'gmc_number'。有些条目有两个相同的gmc\ U编号，有些条目有两个以上

对于每一组重复项，我想根据一组条件将行分配到delete类别或keep类别，如下所示：

1.登录日期：

如果只有一行具有非空的登录名，则将其标记为keep，其余的标记为delete

如果不止一行具有非空的login_dt，则继续对这些行执行步骤2，并将任何具有空login_dt的行标记为delete

如果所有行都有空的login_dt，那么不要标记任何行，继续使用这些行执行步骤2

2.散列

如果只有一行具有非空的hash，则将其标记为keep，其余的标记为delete

如果不止一行具有非空的hash，则继续使用这些值执行步骤3，并将任何具有空hash的行标记为delete

如果所有行都有空的hash，那么不要标记任何行，继续使用这些行执行步骤3

3.寄存器

现在我们要按最新的register_dt排序。将最新的register_dt行标记为keep，其余的标记为delete

我认为python是一种很好的方法。但我不知道我该如何在一组复制品上执行此操作。任何指导都将不胜感激

Tags： csv 标记 register number dt 步骤 login 条目

0条回答

目前没有回答