大Pandas每组排序

2024-06-02 11:03:53 发布

您现在位置:Python中文网/ 问答频道 /正文

考虑一个包含三列的数据帧:group_IDitem_IDvalue。假设我们总共有10个itemIDs

我需要根据value对每个item_ID(1到10)中的每个group_ID进行排序,然后查看组之间的平均排序(和其他统计数据)(例如,组之间值最高的id将得到更接近1的排序)。我该怎么做 熊猫?

This answerqcut做了一些非常接近的事情,但并不完全相同。


数据示例如下:

      group_ID   item_ID  value
0   0S00A1HZEy        AB     10
1   0S00A1HZEy        AY      4
2   0S00A1HZEy        AC     35
3   0S03jpFRaC        AY     90
4   0S03jpFRaC        A5      3
5   0S03jpFRaC        A3     10
6   0S03jpFRaC        A2      8
7   0S03jpFRaC        A4      9
8   0S03jpFRaC        A6      2
9   0S03jpFRaC        AX      0

这将导致:

      group_ID   item_ID   rank
0   0S00A1HZEy        AB      2
1   0S00A1HZEy        AY      3
2   0S00A1HZEy        AC      1
3   0S03jpFRaC        AY      1
4   0S03jpFRaC        A5      5
5   0S03jpFRaC        A3      2
6   0S03jpFRaC        A2      4
7   0S03jpFRaC        A4      3
8   0S03jpFRaC        A6      6
9   0S03jpFRaC        AX      7

Tags: 数据ida2ab排序valuegroupax
1条回答
网友
1楼 · 发布于 2024-06-02 11:03:53

有很多不同的参数可以传递给^{};在执行groupby之后,您可以使用rank("dense", ascending=False)来获得所需的结果:

>>> df["rank"] = df.groupby("group_ID")["value"].rank("dense", ascending=False)
>>> df
     group_ID item_ID  value  rank
0  0S00A1HZEy      AB     10     2
1  0S00A1HZEy      AY      4     3
2  0S00A1HZEy      AC     35     1
3  0S03jpFRaS      AY     90     1
4  0S03jpFRaS      A5      3     5
5  0S03jpFRaS      A3     10     2
6  0S03jpFRaS      A2      8     4
7  0S03jpFRaS      A4      9     3
8  0S03jpFRaS      A6      2     6
9  0S03jpFRaS      AX      0     7

但是请注意,如果您没有使用全局排名方案,那么找出组之间的平均排名并不是很有意义——除非组中有重复的值(因此您有重复的排名值),否则您所做的只是测量组中有多少元素。

相关问题 更多 >