使用apply函数过滤年份，得到月份的平均值

df2 = pd.DataFrame({'year': [2005,2006,2007,2005,2008,2006,2004,2007,2001,2006], 'month': [7,9,12,7,9,8,6,2,9,9], 'vals': [1.2,2.9,3.5,4.3,1.3,1.7,2.6,4.3,8.0,9.0]}) print(df2) def mn(x,ylt): if x['year'] < ylt: return x.mean() df2.groupby('month')['vals'].apply(lambda x: mn(x,2007))

1条回答

网友

1楼 · 发布于 2024-05-19 15:20:10

首先按^{}筛选，然后聚合mean：

df = df2.loc[df2['year'] < 2007, 'vals'].groupby(df2['month']).mean().reset_index()
#alternative
#df = df2.loc[df2['year'] < 2007].groupby('month')['vals'].mean().reset_index()
print (df)
   month      vals
0      6  2.600000
1      7  2.750000
2      8  1.700000
3      9  6.633333

如果需要所有月份，也可以通过所有可能唯一的months添加不匹配的^{}：

df = (df2.loc[df2['year'] < 2007, 'vals']
        .groupby(df2['month'])
        .mean()
        .reindex(df['month'].unique())
        .reset_index())
print (df)
   month      vals
0      2       NaN
1      6  2.600000
2      7  2.750000
3      8  1.700000
4      9  6.633333
5     12       NaN

您的函数应该通过筛选进行更改，但不幸的是，如果大型DataFrame中有许多组：

def mn(x,ylt):
    return x.loc[x['year'] < ylt, 'vals'].mean()

df = df2.groupby('month').apply(lambda x: mn(x,2007)).reset_index(name='vals')
print (df)

   month      vals
0      2       NaN
1      6  2.600000
2      7  2.750000
3      8  1.700000
4      9  6.633333
5     12       NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用apply函数过滤年份，得到月份的平均值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >