我有以下格式的熊猫数据帧:
df = pd.DataFrame(data={'item_code': ['Item1', 'Item2', 'Item3', 'Item1', 'Item1', 'Item2', 'Item2', 'Item1', 'Item3'],
'dollar_amount': ['200.25', '350.00', '120.00', '400.50', '1001.25', '700.00', '350.00', '200.25', '240.00'],
'supplier_code': ['Sup1','Sup1','Sup2','Sup1','Sup1','Sup1','Sup1','Sup2','Sup2']})
此数据帧的外观如下:
^{pr2}$我可以通过以下方法得到dollar_amount
总结的前N项:
a = data.groupby('item_code', as_index=False).sum()
cnt_srs = a[['item_code','dollar_amount']].sort_values(by=['dollar_amount'], ascending=False).head(15)
cnt_srs
样本输出前5项(不包括上述数据):
item_code dollar_amount
173 Item1 8,776,906.5400
442 Item2 2,085,528.8170
367 Item3 2,033,746.0500
25 Item4 1,635,830.4040
537 Item5 1,485,672.4050
现在我想要这些项目的supplier_code
。在
我可以使用以下工具获取供应商代码及其最常提供的项目:
N = 1
df1 = data.groupby(['supplier_code'])['item_code'].value_counts().groupby('supplier_code').head(N)
df1
样本输出:
supplier_code item_code
Sup1 Item4 9
Sup2 Item2 21
Sup3 Item1 7
Sup4 Item5 173
Sup5 Item3 1
Sup6 Item6 12
我想得到前N个项目及其供应商,其中前N个项目由其美元金额之和确定。
预期输出:
item_code dollar_amount SupplierCode
TopItem1 8,776,906.5400 Sup4
TopItem2 2,085,528.8170 Sup1
TopItem3 2,033,746.0500 Sup3
TopItem4 1,635,830.4040 Sup1
TopItem5 1,485,672.4050 Sup2
我想要前N项(以美元计)和相应的供应商代码
非常感谢你一直以来的帮助。在
您可以使用:
使用您的示例数据,如果您只需要第一个供应商代码,那么下面就足够了。在
reset_index()是可选的。我只是用它来返回一个数据帧。在
但是,如果你需要得到每个项目的顶级供应商代码,那么我认为你需要做一个双重分组。在
^{pr2}$相关问题 更多 >
编程相关推荐