我有以下代码:
df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')
数据帧:
state county name
MS 95 Woodland Heights
MS 105 Woodland Heights
VA 179 Woodlawn
VA 775 Woodlawn
VA 179 Woodlawn
VA 775 Woodlawn
期望输出:
state county name
VA 179 Woodlawn
VA 775 Woodlawn
电流输出:
state county name
关于如何捕获重复数据有什么想法吗
keep=False
参数将跨指定列的所有重复行标记为True
。如果每一行都有'state'
、'county'
和'name'
的唯一组合,那么所有行都将被标记为False
。另见^{换句话说,您的结果是空的,因为这3列中没有重复项。您需要指定一些返回
True
值的逻辑相关问题 更多 >
编程相关推荐