Python中分组数据的累积自定义函数

retention = function(x , r) { n =length(x) D = rep(0, n) D[1] = x[1] for (i in 2:n) { D[i]=r*D[i-1] + x[i] } return(D) } x = rep(1:10, each = 5) y = rep(1:5, 10) df = data.frame(x,y) ddply(df, .(x), summarize, y = retention (y, .25))

1条回答

网友

1楼 · 发布于 2024-10-16 20:42:35

有趣的问题。看起来你的衰变因子，如果这么说的话，是0.25，以下两个步骤可以达到预期效果（打印前10个观察结果，结果称为z）：

In [67]:

z = df.groupby('x').y.apply(lambda x: np.convolve(x, np.power(0.25, range(len(x)))[:len(x)], mode='full')[:len(x)])
print z
x
1     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
2     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
3     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
4     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
5     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
6     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
7     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
8     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
9     [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
10    [1.0, 2.25, 3.5625, 4.890625, 6.22265625]
Name: y, dtype: object
In [68]:

print pd.concat([pd.DataFrame({'x': i, 'z': v}) for i, v in zip(z.index.values, z.values)]).head(10)
   x         z
0  1  1.000000
1  1  2.250000
2  1  3.562500
3  1  4.890625
4  1  6.222656
0  2  1.000000
1  2  2.250000
2  2  3.562500
3  2  4.890625
4  2  6.222656

基本上，使用numpy.convolve完成累积和运算（带因子）。剩下的是直接的：只需groupby将数据分组，应用convolve，然后{}将结果放在一起。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中分组数据的累积自定义函数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >