如何在数据帧中找到重复项？

网友

1楼 · 编辑于 2024-09-29 04:31:26

df = pd.DataFrame(table, columns = ['Email'])

df_duplicates_removed = pd.DataFrame.drop_duplicates(df)

（其中table是原始数据帧的名称）

网友

2楼 · 编辑于 2024-09-29 04:31:26

类似这样的解决方案可能就是您正在寻找的解决方案：

import pandas as pd
series = [
    ('a@a.com','Bill', 'Schneider', 123, 321, 20190502),
    ('a@a.com', 'Damian', 'Schneider', 124, 231, 20190502),
    ('b@b.com', 'Bill', 'Schneider',164, 313, 20190503)
    ]

# Create a DataFrame object
df = pd.DataFrame(series, columns=['email', 'first name', 'last name', 'C_ID', 'A_ID', 'CreatedDate'])

# Find duplicate rows
df_duplicates = df[df.email.duplicated()]
print(df_duplicates)

网友

3楼 · 编辑于 2024-09-29 04:31:26

您可以使用value_counts

这将为您提供每封电子邮件的计数（作为一个系列）。然后遍历该系列并删除仅包含1个值的任何行

完整代码如下：

for index, value in df.Email.value_counts().iteritems(): 
    if value == 1: 
        df = df[df.Email != index]

更新我不知道duplicated til指出了什么，所以看起来最好的方法是：

df[df.Email.duplicated(keep=False)]

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在数据帧中找到重复项？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >