如何删除重复项，但在特定的其他列不为null时保留行（Pandas）

subset = ['firstname', 'lastname'] df[subset] = df[subset].apply(lambda x: x.str.lower()) df[subset] = df[subset].apply(lambda x: x.replace(" ", "")) df.sort_values(subset + ['bank'], inplace=True) df.drop_duplicates(subset, inplace=True) print(df.shape[0]) 58594

uniq_indx = (df.sort_values(by="bank", na_position='last').dropna(subset=['firstname', 'lastname', 'email']) .applymap(lambda s: s.lower() if type(s) == str else s) .applymap(lambda x: x.replace(" ", "") if type(x) == str else x) .drop_duplicates(subset=['firstname', 'lastname', 'email'], keep='first')).index df.loc[uniq_indx].shape[0] 59170

3条回答

网友

1楼 · 编辑于 2024-09-30 00:42:18

您应该按bank列对值进行排序，并使用na_position='last'（因此.drop_duplicates(..., keep='first')将保留一个非na的值）。在

试试这个：

import pandas as pd
import numpy as np

df = pd.DataFrame({'firstname': ['foo Bar', 'Bar Bar', 'Foo Bar'],
                   'lastname': ['Foo Bar', 'Bar', 'Foo Bar'],
                   'email': ['Foo bar', 'Bar', 'Foo Bar'],
                   'bank': [np.nan, 'abc', 'xyz']})

uniq_indx = (df.sort_values(by="bank", na_position='last').dropna(subset=['firstname', 'lastname', 'email'])
             .applymap(lambda s: s.lower() if type(s) == str else s)
             .applymap(lambda x: x.replace(" ", "") if type(x) == str else x)
             .drop_duplicates(subset=['firstname', 'lastname', 'email'], keep='first')).index

# save unique records
dfiban_uniq = df.loc[uniq_indx]

print(dfiban_uniq)

输出：

^{pr2}$

（这只是您的原始代码，在uniq_indx = ...的开头加上.sort_values(by="bank", na_position='last')）

网友

2楼 · 编辑于 2024-09-30 00:42:18

方法1：下部结构，排序并删除重复项

这也适用于许多列

subset = ['firstname', 'lastname']

df[subset] = df[subset].apply(lambda x: x.str.lower())
df.sort_values(subset + ['bank'], inplace=True)
df.drop_duplicates(subset, inplace=True)

^{pr2}$

方法二：groupby，agg，first

不容易推广到许多列

df.groupby([df['firstname'].str.lower(), df['lastname'].str.lower()], sort=False)\
  .agg({'email':'first','bank':'first'})\
  .reset_index()

  firstname lastname    email bank
0   foo bar  foo bar  Foo bar  xyz
1   bar bar      bar      Bar  abc

网友

3楼 · 编辑于 2024-09-30 00:42:18

您可以按drop_duplicates之前的银行帐户进行排序，将重复项放在NaN最后：

uniq_indx = (df.dropna(subset=['firstname', 'lastname', 'email'])
.applymap(lambda s:s.lower() if type(s) == str else s)
.applymap(lambda x: x.replace(" ", "") if type(x)==str else x)
.sort_values(by='bank')  # here we sort values by bank column
.drop_duplicates(subset=['firstname', 'lastname', 'email'], keep='first')).index

方法1：下部结构，排序并删除重复项

方法二：groupby，agg，first

相关问题更多 >

编程相关推荐

热门问题

热门文章