如何通过数据帧中的另一行进行规范化？

In [94]: df Out[94]: N experiment color value value2 0 145000 0 red 0.30 0.363953 1 14000 1 red 0.31 0.218978 2 13000 2 red 0.29 0.948070 3 15000 0 yellow 0.31 0.620201 4 1200 1 yellow 0.32 0.567513 5 1400 2 yellow 0.31 0.318197 6 40000 0 green 0.29 0.947226 7 3000 1 green 0.31 0.084243 8 7000 2 green 0.32 0.961020 [9 rows x 5 columns]

In [104]: df Out[104]: N experiment color value value2 scaled_value scaled_value2 0 145000 0 red 0.30 0.363953 1.000000 1.000000 1 14000 1 red 0.31 0.218978 1.033333 0.590786 2 13000 2 red 0.29 0.948070 0.966667 2.604732 3 15000 0 yellow 0.31 0.620201 1.000000 1.000000 4 1200 1 yellow 0.32 0.567513 1.032258 0.914220 5 1400 2 yellow 0.31 0.318197 1.000000 0.512737 6 40000 0 green 0.29 0.947226 1.000000 1.000000 7 3000 1 green 0.31 0.084243 1.068966 0.088680 8 7000 2 green 0.32 0.961020 1.103448 1.014541 [9 rows x 7 columns]

1条回答

网友

1楼 · 发布于 2024-10-07 16:32:17

一种方法是使用transform（这里使用idxmin，尽管有许多替代方法）来获取我们要用作分母的行的索引：

>>> ii = df.groupby("color")["experiment"].transform("idxmin")
>>> cols = ["value", "value2"]
>>> new_cols = (df.loc[:,cols] /df.loc[ii, cols].values)
>>> df.join(new_cols.rename(columns=lambda x: "scaled_" + x))
        N  experiment   color  value    value2  scaled_value  scaled_value2
0  145000           0     red   0.30  0.363953      1.000000       1.000000
1   14000           1     red   0.31  0.218978      1.033333       0.601666
2   13000           2     red   0.29  0.948070      0.966667       2.604924
3   15000           0  yellow   0.31  0.620201      1.000000       1.000000
4    1200           1  yellow   0.32  0.567513      1.032258       0.915047
5    1400           2  yellow   0.31  0.318197      1.000000       0.513055
6   40000           0   green   0.29  0.947226      1.000000       1.000000
7    3000           1   green   0.31  0.084243      1.068966       0.088937
8    7000           2   green   0.32  0.961020      1.103448       1.014563

一步一步地，我们首先找到分母指数：

>>> ii = df.groupby("color")["experiment"].transform("idxmin")
>>> ii
0    0
1    0
2    0
3    3
4    3
5    3
6    6
7    6
8    6
dtype: int64

然后我们可以用这个索引到框架中：

>>> df.loc[ii, cols]
   value    value2
0   0.30  0.363953
0   0.30  0.363953
0   0.30  0.363953
3   0.31  0.620201
3   0.31  0.620201
3   0.31  0.620201
6   0.29  0.947226
6   0.29  0.947226
6   0.29  0.947226

因为我们自己处理对齐，所以我们需要调用.values下拉到底层数组，否则pandas会试图比我们聪明，并根据索引正确对齐。你知道吗

然后我们分开：

>>> (df.loc[:,cols] /df.loc[ii, cols].values)
      value    value2
0  1.000000  1.000000
1  1.033333  0.601666
2  0.966667  2.604924
3  1.000000  1.000000
4  1.032258  0.915047
5  1.000000  0.513055
6  1.000000  1.000000
7  1.068966  0.088937
8  1.103448  1.014563

最后加入它们，重新命名新列：

>>> df.join(new_cols.rename(columns=lambda x: "scaled_" + x))
        N  experiment   color  value    value2  scaled_value  scaled_value2
0  145000           0     red   0.30  0.363953      1.000000       1.000000
1   14000           1     red   0.31  0.218978      1.033333       0.601666
2   13000           2     red   0.29  0.948070      0.966667       2.604924
3   15000           0  yellow   0.31  0.620201      1.000000       1.000000
4    1200           1  yellow   0.32  0.567513      1.032258       0.915047
5    1400           2  yellow   0.31  0.318197      1.000000       0.513055
6   40000           0   green   0.29  0.947226      1.000000       1.000000
7    3000           1   green   0.31  0.084243      1.068966       0.088937
8    7000           2   green   0.32  0.961020      1.103448       1.014563

相关问题更多 >

编程相关推荐

热门问题

热门文章