求B列中具有A列中K个最大元素之一的行中的值的平均值：Pandas Dataframe GroupBy Obj

col9 col10 col4 col7 john doe 5 12 4 15 11 9 4 14 jane doe 42 421 50 42 124 27 15 25

1条回答

网友
1楼 · 发布于 2024-10-01 17:24:04

很接近了-需要^{}表示不丢失列col10，然后得到mean：
grp_data = df1.groupby(consideredCols) print(grp_data.apply(lambda grp: (grp.nlargest(k_value, 'col9'))['col10'].mean())) col4 col7 jane doe 34.5 john doe 10.5 dtype: float64
具有^{}和^{}的另一种解决方案：
out = (df1.sort_values(['col4','col7','col9'], ascending=[True, True, False]) .groupby(consideredCols) .apply(lambda grp: grp.head(2)['col10'].mean())) print (out) col4 col7 jane doe 34.5 john doe 10.5 dtype: float64
out = (df1.sort_values(['col4','col7','col9'], ascending=[True, True, False]) .groupby(consideredCols) .apply(lambda grp: grp.head(2)['col10'].mean())).mean() print (out) 22.5
为了更好地理解函数，最好使用^{}创建自定义函数并使用print，然后可以使用lambda函数重写它：
consideredCols = ['col4', 'col7'] k_value = 2 def f(grp): print (grp) print (grp.nlargest(k_value, 'col9')) print (grp.nlargest(k_value, 'col9')['col10'].mean()) return grp.nlargest(k_value, 'col9')['col10'].mean() grp_data = df1.groupby(consideredCols) print(grp_data.apply(f))

相关问题更多 >

编程相关推荐

热门问题

热门文章