使用pandas返回每组前N个最大值

MASTER SLAVE Value Master_1 Slave_1 657879 Master_1 Slave_2 34343 Master_1 Slave_3 453313 Master_2 Slave_1 56667 Master_2 Slave_2 6879 Master_2 Slave_3 12333 Master_2 Slave_4 789 Master_2 Slave_5 22235 Master_3 Slave_1 65765 Master_3 Slave_2 23431 Master_3 Slave_3 445 Master_3 Slave_4 567

2条回答

网友

1楼 · 编辑于 2024-06-28 19:46:00

IIUC，一个选项是sort_values和GroupBy.head，其中n=2：

df.sort_values('Value', ascending=False).groupby('MASTER', sort=False).head(2)

     MASTER    SLAVE   Value
0  Master_1  Slave_1  657879
2  Master_1  Slave_3  453313
8  Master_3  Slave_1   65765
3  Master_2  Slave_1   56667
9  Master_3  Slave_2   23431
7  Master_2  Slave_5   22235

另一种是使用n=2的set_index和GroupBy.nlargest：

df.set_index('SLAVE').groupby('MASTER')['Value'].nlargest(2).reset_index()

     MASTER    SLAVE   Value
0  Master_1  Slave_1  657879
1  Master_1  Slave_3  453313
2  Master_2  Slave_1   56667
3  Master_2  Slave_5   22235
4  Master_3  Slave_1   65765
5  Master_3  Slave_2   23431

网友

2楼 · 编辑于 2024-06-28 19:46:00

您可以使用排序和分组方式的组合：

df.sort_values(['MASTER', 'Value'], ascending=[True, False], inplace=True)
grp = df.groupby('MASTER')['SLAVE'].indices
slaves = {k: df.loc[k][:2]['SLAVE'].values  for k in grp.keys()}

将输出：

{'Master_1': array(['Slave_1', 'Slave_3'], dtype=object),
 'Master_2': array(['Slave_1', 'Slave_5'], dtype=object),
 'Master_3': array(['Slave_1', 'Slave_2'], dtype=object)}

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pandas返回每组前N个最大值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >