如何在对ID进行分组的同时，在另一列的情况下创建一个平均值为1列的新数据帧

In [1]: import pandas as pd import numpy as np df = pd.DataFrame([['0068edf090ceaf1356', '0068edf090ceaf1356', '0068edf090ceaf1356','0068edf090ceaf1356', '0068edf090ceaf1356', '009eft67eaa133cea4', '009eft67eaa133cea4', '009eft67eaa133cea4', '009eft67eaa133cea4'], [-26, -26 -36, 81, 181, -51, -81, 61, 71], [18.0, 27.0, 53.0, 43.6, 12.4, 24.4, 63.0,72.8]], columns = ['uuid', 'prom_completed_date', 'prom_score']) In [2]: df Out[2]: uuid prom_completed_date prom_score 0068edf090ceaf1356 -26 18.0 0068edf090ceaf1356 -26 18.0 0068edf090ceaf1356 -36 27.0 0068edf090ceaf1356 81 53.0 0068edf090ceaf1356 181 43.6 009eft67eaa133cea4 -51 12.4 009eft67eaa133cea4 -81 24.4 009eft67eaa133cea4 61 63.0 009eft67eaa133cea4 71 72.8

In [3]: Out[3]: uuid postop_avgPROM preop_avgPROM difference 0068edf090ceaf1356 48.3 22.5 25.8 009eft67eaa133cea4 67.9 18.4 49.5

2条回答

网友

1楼 · 编辑于 2024-10-02 04:29:19

以下是您尝试的解决方案

这将为uuid值和prom_completed_date_relative正/负的每个组合提供prom_score平均值

df_avg = df.groupby(["uuid",df["prom_completed_date_relative"]>=0])["prom_score"].mean().reset_index()

您将需要对其进行更多的处理，以获得所需的列

在df_avg上使用.pivot()：

df_avg = df_avg.pivot(index="uuid", columns="prom_completed_date_relative" ,values="prom_score")

网友

2楼 · 编辑于 2024-10-02 04:29:19

可能有一种更简洁的方法来实现您的结果，但这里有一种非常明确的多步骤方法

#get each column
post_op=df[df['prom_completed_date']>0].groupby('uuid').mean()['prom_score']
pre_op=df[df['prom_completed_date']<0].groupby('uuid').mean()['prom_score']
difference=post_op-pre_op

#concat them together
df1=pd.concat([post_op,pre_op,difference], axis=1)

#rename the columns
df1.columns=['postop_avgPROM','preop_avgPROM','difference']

df1
                    postop_avgPROM  preop_avgPROM   difference
uuid            
0068edf090ceaf1356  48.3            22.5            25.8
009eft67eaa133cea4  67.9            18.4            49.5

相关问题更多 >

编程相关推荐

热门问题

热门文章