在多个标准上查找重复项

'date','amount','description','source' 1/5/2018, 5.28, 'McDonalds', 'BankOfAmerica' 1/6/2018, 8.44, 'Starbucks', 'BankOfAmerica' 1/5/2018, 5.28, 'McDonalds Rest', 'BoA' 2/10/2018, 22.72, 'Chipolte', 'Chase' 3/10/2018, 4.58, 'Wendys', 'BoA'

2条回答

网友

1楼 · 编辑于 2024-06-02 12:04:53

使用已存在

select t1.* from table_name t1
where exists( select 1 from table_name t2 
             where t2.date=t1.date and t2.amount=t1.amount and t1.source<>t2.source)

网友

2楼 · 编辑于 2024-06-02 12:04:53

考虑以下数据（为了更好地理解，在第3行中添加了一行）

data = pd.compat.StringIO("""5 Jan, 5.28, 'McDonalds', 'BankOfAmerica'
6 Jan, 8.44, 'Starbucks', 'BankOfAmerica'
5 Jan, 5.28, 'McDonalds Rest', 'BoA'
5 Jan, 5.28, 'McDonalds Rest', 'BankOfAmerica'
10 Feb, 22.72, 'Chipolte', 'Chase'""")
df = pd.read_csv(data,header=None)
df.columns=['Date','Amount','Dscription','Source']
print(df)

 Date  Amount         Dscription            Source
0   5 Jan    5.28        'McDonalds'   'BankOfAmerica'
1   6 Jan    8.44        'Starbucks'   'BankOfAmerica'
2   5 Jan    5.28   'McDonalds Rest'             'BoA'
3   5 Jan    5.28   'McDonalds Rest'   'BankOfAmerica'
4  10 Feb   22.72         'Chipolte'           'Chase'

对于副本和不同来源：

df_dups =df[df.duplicated(['Date','Amount'],keep=False)]
df_dups =df_dups.drop_duplicates(['Date','Amount','Source'],keep=False)
print(df_dups)


    Date  Amount         Dscription            Source
0  5 Jan    5.28        'McDonalds'   'BankOfAmerica'
2  5 Jan    5.28   'McDonalds Rest'             'BoA'

对于无DUP（拉取所有其他行基本上是df-df_dup）：

no_dups=df.loc[~df.index.isin(df_dups.index)]
print(no_dups)

     Date    Amount      Dscription            Source
1   6 Jan    8.44        'Starbucks'   'BankOfAmerica'
3   5 Jan    5.28   'McDonalds Rest'   'BankOfAmerica'
4  10 Feb   22.72         'Chipolte'           'Chase'

相关问题更多 >

编程相关推荐

热门问题

热门文章

在多个标准上查找重复项

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >