每组值作为单独列的出现计数

trn_id | card_id | status | num_approved | num_of_denied 1 | c1 | Y | 1 | 0 2 | c2 | Y | 1 | 1 3 | c2 | N | 1 | 1 4 | c3 | Y | 2 | 0 5 | c3 | Y | 2 | 0

import pandas as panda a = panda.DataFrame({'id':[1,2,3],'c_id':[22,22,33], 'status':['Y','Y','N']}) temp = a.status.str.get_dummies() a[['N','Y']]= temp tt = a.groupby(['c_id'])['Y'].count() tt=tt.reset_index() yes_count_added = a.merge(tt,how='right',on='c_id') yes_count_added.rename(columns = {'Y_y':'num_of_approved'})

3条回答

网友

1楼 · 编辑于 2024-09-30 14:20:57

您可以^{}card_id并使用^{}和lambda表达式sum使用status的次数等于Y的num_approved或N的num_of_denied的^{}：

df['num_approved'] = df.groupby('card_id').status.transform(
                                lambda x: x.eq('Y').sum())
df['num_of_denied'] = df.groupby('card_id').status.transform(
                                 lambda x: x.eq('N').sum())

     trn_id card_id  status    num_approved    num_of_denied
0       1      c1      Y             1              0
1       2      c2      Y             1              1
2       3      c2      N             1              1
3       4      c3      Y             2              0
4       5      c3      Y             2              0

网友

2楼 · 编辑于 2024-09-30 14:20:57

使用str.get_dummies+单个groupby调用来提高性能：

df.status.str.get_dummies().groupby(df.card_id).transform('sum')

   N  Y
0  0  1
1  1  1
2  1  1
3  0  2
4  0  2

v = (df.status
       .str.get_dummies()
       .groupby(df.card_id)
       .transform('sum')
       .rename({'Y': 'num_approved', 'N': 'num_denied'}, axis=1))

pd.concat([df, v], axis=1)

   trn_id card_id status  num_denied  num_approved
0       1      c1      Y           0             1
1       2      c2      Y           1             1
2       3      c2      N           1             1
3       4      c3      Y           0             2
4       5      c3      Y           0             2

网友

3楼 · 编辑于 2024-09-30 14:20:57

您可以使用crosstab：

import pandas as pd

a = pd.DataFrame(
    {'trn_id': [1, 2, 3, 4, 5],
     'card_id': ['c1', 'c2', 'c2', 'c3', 'c3'],
     'status': ['Y', 'Y', 'N', 'Y', 'Y']})

crosstab = pd.crosstab(a.card_id, a.status).reset_index(level=0).rename(
    columns={'Y': 'num_approved', 'N': 'num_denied'})
print(pd.merge(a, crosstab, on='card_id'))

输出

  card_id status  trn_id  num_denied  num_approved
0      c1      Y       1           0             1
1      c2      Y       2           1             1
2      c2      N       3           1             1
3      c3      Y       4           0             2
4      c3      Y       5           0             2

相关问题更多 >

编程相关推荐

热门问题

热门文章