按分组并聚合到新列

df = pd.DataFrame({'CustomerId':[1,1,1,2,2,2,3,3,3,4,4,4,5,5,5], 'CustomerName': ['McNulty','McNulty','McNulty', 'Bunk','Bunk','Bunk', 'Joe','Joe','Joe', 'Rawls','Rawls','Rawls', 'Davis','Davis','Davis'], 'Sales':np.random.randint(1000,1500,15), 'Year':[2014,2015,2016,2014,2015,2016,2014,2015,2016, 2014,2015,2016,2014,2015,2016]})

CustomerId CustomerName Sales 2014 2015 2016 1 McNulty 3300 1050 1050 1200 2 Bunk 3500 1100 1200 1200 3 Joe 3900 1300 1300 1300 4 Rawls 3500 1000 1000 1500 5 Davis 3800 1600 1100 1100

2条回答

网友

1楼 · 编辑于 2024-10-01 04:59:08

您可以使用^{}：

df.pivot_table(index=['CustomerId', 'CustomerName'],
               columns=['Year'],
               values='Sales',
               margins=True,
               margins_name='Sales',
               aggfunc='sum').reset_index().iloc[:-1]

[输出]

Year CustomerId CustomerName  2014  2015  2016  Sales
0             1      McNulty  1006  1325  1205   3536
1             2         Bunk  1267  1419  1257   3943
2             3          Joe  1348  1217  1323   3888
3             4        Rawls  1091  1390  1330   3811
4             5        Davis  1075  1316  1481   3872

网友

2楼 · 编辑于 2024-10-01 04:59:08

使用pivot_table并展平多索引列，最后计算axis=1上的sum：

piv = df.pivot_table(index=['CustomerId', 'CustomerName'], columns='Year').reset_index()

piv.columns = [f'{c1}_{c2}'.strip('_') for c1, c2 in piv.columns]

piv['Sales'] = piv.filter(like='Sales').sum(axis=1)

输出

   CustomerId CustomerName  Sales_2014  Sales_2015  Sales_2016  Sales
0           1      McNulty        1144        1007        1108   3259
1           2         Bunk        1146        1451        1169   3766
2           3          Joe        1455        1070        1351   3876
3           4        Rawls        1263        1004        1422   3689
4           5        Davis        1428        1431        1399   4258`

相关问题更多 >

编程相关推荐

热门问题

热门文章