Pandas数据帧按前N项分组

df = pd.DataFrame(data={'item_code': ['Item1', 'Item2', 'Item3', 'Item1', 'Item1', 'Item2', 'Item2', 'Item1', 'Item3'], 'dollar_amount': ['200.25', '350.00', '120.00', '400.50', '1001.25', '700.00', '350.00', '200.25', '240.00'], 'supplier_code': ['Sup1','Sup1','Sup2','Sup1','Sup1','Sup1','Sup1','Sup2','Sup2']})

item_code dollar_amount 173 Item1 8,776,906.5400 442 Item2 2,085,528.8170 367 Item3 2,033,746.0500 25 Item4 1,635,830.4040 537 Item5 1,485,672.4050

item_code dollar_amount SupplierCode TopItem1 8,776,906.5400 Sup4 TopItem2 2,085,528.8170 Sup1 TopItem3 2,033,746.0500 Sup3 TopItem4 1,635,830.4040 Sup1 TopItem5 1,485,672.4050 Sup2

2条回答

网友

1楼 · 编辑于 2024-09-28 03:17:26

您可以使用：

df1 = (df.groupby('item_code', as_index=False)
         .agg({'dollar_amount':'sum', 'supplier_code': 'first'}))
print (df1)
  item_code supplier_code  dollar_amount
0     Item1          Sup1        1802.25
1     Item2          Sup1        1400.00
2     Item3          Sup2         360.00

网友

2楼 · 编辑于 2024-09-28 03:17:26

使用您的示例数据，如果您只需要第一个供应商代码，那么下面就足够了。在

>>> print(df.groupby('item_code').agg({'dollar_amount':sum, 'supplier_code': lambda curr: curr.iloc[0]}).sort_values('dollar_amount', ascending=False).reset_index())
  item_code  dollar_amount supplier_code
0     Item1        1802.25          Sup1
1     Item2        1400.00          Sup1
2     Item3         360.00          Sup2

reset_index（）是可选的。我只是用它来返回一个数据帧。在

但是，如果你需要得到每个项目的顶级供应商代码，那么我认为你需要做一个双重分组。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章