删除Pandas中的重复项

2024-06-25 23:30:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试删除pandas中的重复数据,下面的数据与我的数据集类似

df1:
RNo  ID             PID         PDate      Amount
1   AAAAAA          NN11        20210525    100
2   AAAAAA          NN11        20210525    386
1   BBBBBB          A12         20210525    3300
2   BBBBBB          A12         20210525    3300
3   BBBBBB          A12         20210525    3300
1   CCCCCC          B16         20210526    5000 
2   CCCCCC          D85         20210526    1000

df2:
RNo  ID             PID         PDate      Amount
1   AAAAAA          NN11        20210525    386
1   BBBBBB          A12         20210525    3300
2   BBBBBB          A12         20210525    3300
1   CCCCCC          B16         20210526    5000 
2   CCCCCC          D85         20210526    1000

我尝试用下面的代码删除重复项

df_diff = pd.concat([df1, df2])
df_diff_Extract=df_diff.drop_duplicates(subset=['RNo',  'ID','PID', 'PDate', 'Amount'],keep=False)

我正在尝试仅获取非重复数据

然而,对于df1和df2之间RNo不正确匹配的my ID(AAAAA),这并不能产生正确的输出。Rno是我为数据创建的行号

Desired output :
RNo  ID             PID         PDate      Amount
1   AAAAAA          NN11        20210525    100
1   BBBBBB          A12         20210525    3300
2   BBBBBB          A12         20210525    3300

有人能帮我吗


Tags: 数据iddfdiffpidamountdf1df2