Pandas DataFrame如何进行更快的rolling_apply？

import pandas as pd import numpy as np import random def meanmax(ii,df): xdf = df.iloc[map(int,ii)] n = max(xdf['A']) + max(xdf['B']) return n / 2.0 df = pd.DataFrame(np.random.randn(2500,2)/10000, index=pd.date_range('2001-01-01',periods=2500), columns=['A','B']) df['ii'] = range(len(df)) res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df))

%timeit res = pd.rolling_apply(df.ii, 26, lambda x: meanmax(x, df)) 1 loops, best of 3: 1 s per loop %timeit res2 = (pd.rolling_max(df['A'],26) + pd.rolling_max(df['B'],26)) / 2 1000 loops, best of 3: 325 µs per loop

2条回答

网友

1楼 · 编辑于 2024-10-01 07:39:59

你不能降到rolling_max的速度，但是你通常可以通过.values降到numpy来减少一个数量级左右：

def meanmax_np(ii, df):
    ii = ii.astype(int)
    n = df["A"].values[ii].max() + df["B"].values[ii].max()
    return n/2.0

给了我

^{pr2}$

虽然仍然比优化后的情况慢100倍，但比原来快得多。有时候，我只需要速度快十倍的东西，就不会成为占主导地位的时间链，这就足够了。在

网友

2楼 · 编辑于 2024-10-01 07:39:59

在一个大小为n且窗口大小为m的数组上计算通用滚动函数大约需要O(n*m)时间。内置的rollin_xxx方法使用一些非常聪明的算法来保持运行时间远低于该时间，并且通常可以保证O(n)时间，如果你认为这是一件令人印象深刻的事情。在

rolling_min和{}尤其是借用了bottleneck的实现，后者引用了Richard Harter作为算法的源代码，尽管我在{a3}中发现了我认为的相同算法的早期描述。在

所以在历史课之后：很有可能你不能吃你的蛋糕。rolling_apply非常方便，但它几乎总是牺牲特定算法的性能。根据我的经验，使用Python科学堆栈的一个更有趣的部分是，使用以创造性方式提供的快速原语来实现高效的计算方法。您自己的解决方案调用rolling_max两次就是一个很好的例子。因此，放松并享受这段旅程吧，要知道，如果你或其他好人无法找到更明智的解决方案，你将永远有机会依靠。在

相关问题更多 >

编程相关推荐

热门问题

热门文章