Pandas复制了3个字段

2024-10-04 11:29:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下代码:

df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')

数据帧:

state   county      name
MS      95          Woodland Heights
MS      105         Woodland Heights
VA      179         Woodlawn
VA      775         Woodlawn
VA      179         Woodlawn
VA      775         Woodlawn

期望输出:

state   county      name
VA      179         Woodlawn
VA      775         Woodlawn

电流输出:

 state   county      name

关于如何捕获重复数据有什么想法吗


Tags: csv数据代码nametestdfmsstate
1条回答
网友
1楼 · 发布于 2024-10-04 11:29:10

keep=False参数将跨指定列的所有重复行标记为True。如果每一行都有'state''county''name'的唯一组合,那么所有行都将被标记为False。另见^{}

换句话说,您的结果是空的,因为这3列中没有重复项。您需要指定一些返回True值的逻辑

相关问题 更多 >