"查找重复列，并添加相应列的对应行"

A B C D E F G 13348 xyzqr 324580 1 1 1 1 13348 grpret 325810 4 4 4 4 45832 gberthh 258729 2 1 3 4 45832 bhdrffe 025892 2 1 1 4 58712 bgrtw 984562 2 2 2 2 76493 hzrt 638495 1 1 1 2 643509 . T648501 1 1 1 1 643509 . R648501 1 1 1 1

1条回答

网友

1楼 · 发布于 2024-10-03 17:22:49

我认为需要：

cols = ['D','E','F','G']
#for each group transpose df and check if all duplicates
df1 = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False))
#for duplicates aggregate sum else 0
arr = np.where(df1.all(axis=1), df.groupby('A')[cols[0]].sum(), 0)
#remove unnecessary columns and add new, get first rows per column A
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
        A        B        C  D
0   13348    xyzqr   324580  5
2   45832  gberthh   258729  0
4   58712    bgrtw   984562  2
5   76493     hzrt   638495  0
6  643509        .  T648501  2

如果所有值都是重复的，则检查每个组的替代解决方案：

cols = ['D','E','F','G']
m = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False).all())
print (m)
A
13348     True
45832    False
dtype: bool

arr = np.where(m, df.groupby('A')[cols[0]].sum(), 0)
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
        A        B        C  D
0   13348    xyzqr   324580  5
2   45832  gberthh   258729  0
4   58712    bgrtw   984562  2
5   76493     hzrt   638495  0
6  643509        .  T648501  2

相关问题更多 >

编程相关推荐

热门问题

热门文章

"查找重复列，并添加相应列的对应行"

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >