Pandas数据帧按前N项分组

2024-09-28 03:17:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下格式的熊猫数据帧:

df = pd.DataFrame(data={'item_code': ['Item1', 'Item2', 'Item3', 'Item1', 'Item1', 'Item2', 'Item2', 'Item1', 'Item3'],
        'dollar_amount': ['200.25', '350.00', '120.00', '400.50', '1001.25', '700.00', '350.00', '200.25', '240.00'],
        'supplier_code': ['Sup1','Sup1','Sup2','Sup1','Sup1','Sup1','Sup1','Sup2','Sup2']})

此数据帧的外观如下:

^{pr2}$

我可以通过以下方法得到dollar_amount总结的前N项:

a = data.groupby('item_code', as_index=False).sum()
cnt_srs = a[['item_code','dollar_amount']].sort_values(by=['dollar_amount'], ascending=False).head(15)
cnt_srs

样本输出前5项(不包括上述数据):

        item_code   dollar_amount
 173    Item1       8,776,906.5400
 442    Item2       2,085,528.8170
 367    Item3       2,033,746.0500
 25     Item4       1,635,830.4040
 537    Item5       1,485,672.4050

现在我想要这些项目的supplier_code。在

我可以使用以下工具获取供应商代码及其最常提供的项目:

N = 1
df1 = data.groupby(['supplier_code'])['item_code'].value_counts().groupby('supplier_code').head(N)
df1

样本输出:

supplier_code  item_code
Sup1           Item4      9
Sup2           Item2      21
Sup3           Item1      7
Sup4           Item5      173
Sup5           Item3      1
Sup6           Item6      12

我想得到前N个项目及其供应商,其中前N个项目由其美元金额之和确定。

预期输出:

item_code      dollar_amount     SupplierCode
TopItem1       8,776,906.5400    Sup4
TopItem2       2,085,528.8170    Sup1
TopItem3       2,033,746.0500    Sup3
TopItem4       1,635,830.4040    Sup1
TopItem5       1,485,672.4050    Sup2

我想要前N项(以美元计)和相应的供应商代码

非常感谢你一直以来的帮助。在


Tags: 数据项目datacodeitemamount供应商supplier
2条回答

您可以使用:

df1 = (df.groupby('item_code', as_index=False)
         .agg({'dollar_amount':'sum', 'supplier_code': 'first'}))
print (df1)
  item_code supplier_code  dollar_amount
0     Item1          Sup1        1802.25
1     Item2          Sup1        1400.00
2     Item3          Sup2         360.00

使用您的示例数据,如果您只需要第一个供应商代码,那么下面就足够了。在

>>> print(df.groupby('item_code').agg({'dollar_amount':sum, 'supplier_code': lambda curr: curr.iloc[0]}).sort_values('dollar_amount', ascending=False).reset_index())
  item_code  dollar_amount supplier_code
0     Item1        1802.25          Sup1
1     Item2        1400.00          Sup1
2     Item3         360.00          Sup2

reset_index()是可选的。我只是用它来返回一个数据帧。在

但是,如果你需要得到每个项目的顶级供应商代码,那么我认为你需要做一个双重分组。在

^{pr2}$

相关问题 更多 >

    热门问题