大Pandas纪念馆

<class 'pandas.core.frame.DataFrame'> DatetimeIndex: 421570 entries, 2010-02-05 00:00:00 to 2012-10-26 00:00:00 Data columns (total 5 columns): Store 421570 non-null int64 Dept 421570 non-null int64 Weekly_Sales 421570 non-null float64 IsHoliday 421570 non-null bool Date_Str 421570 non-null object dtypes: bool(1), float64(1), int64(2), object(1)None

Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE

Traceback (most recent call last): File "rock.py", line 85, in <module> rock.pandasTest() File "rock.py", line 31, in pandasTest df_train['_id'] = df_train['Store'].astype(str) +'_' + df_train['Dept'].astype('str') File "/usr/local/lib/python2.7/dist-packages/pandas-0.13.1-py2.7-linux-x86_64.egg/pandas/core/ops.py", line 480, in wrapper return_indexers=True) File "/usr/local/lib/python2.7/dist-packages/pandas-0.13.1-py2.7-linux-x86_64.egg/pandas/tseries/index.py", line 976, in join return_indexers=return_indexers) File "/usr/local/lib/python2.7/dist-packages/pandas-0.13.1-py2.7-linux-x86_64.egg/pandas/core/index.py", line 1304, in join return_indexers=return_indexers) File "/usr/local/lib/python2.7/dist-packages/pandas-0.13.1-py2.7-linux-x86_64.egg/pandas/core/index.py", line 1345, in _join_non_unique how=how, sort=True) File "/usr/local/lib/python2.7/dist-packages/pandas-0.13.1-py2.7-linux-x86_64.egg/pandas/tools/merge.py", line 465, in _get_join_indexers return join_func(left_group_key, right_group_key, max_groups) File "join.pyx", line 152, in pandas.algos.full_outer_join (pandas/algos.c:34716) MemoryError

2条回答

网友

1楼 · 编辑于 2024-09-27 07:32:23

我也可以在0.13.1上复制它，但这个问题不会在0.12或0.14（昨天发布）中出现，所以它在0.13中似乎是个错误。
因此，也许可以尝试升级您的pandas版本，因为矢量化的方式比应用程序快得多（在我的机器上是5s vs>；1分钟），在0.14上使用更少的峰值内存（200Mb vs 980Mb，带%memit）

使用您的示例数据重复50000次（导致df为450k行），并使用@jsalonen的apply_id函数：

In [23]: pd.__version__ 
Out[23]: '0.14.0'

In [24]: %timeit df_train['Store'].astype(str) +'_' + df_train['Dept'].astype(str)+'_'+ df_train['Date_Str'].astype(str)
1 loops, best of 3: 5.42 s per loop

In [25]: %timeit df_train.apply(apply_id, 1)
1 loops, best of 3: 1min 11s per loop

In [26]: %load_ext memory_profiler

In [27]: %memit df_train['Store'].astype(str) +'_' + df_train['Dept'].astype(str)+'_'+ df_train['Date_Str'].astype(str)
peak memory: 201.75 MiB, increment: 0.01 MiB

In [28]: %memit df_train.apply(apply_id, 1)
peak memory: 982.56 MiB, increment: 780.79 MiB

网友

2楼 · 编辑于 2024-09-27 07:32:23

尝试用DataFrame.apply调用生成_id字段：

def apply_id(x):
    x['_id'] = "{}_{}_{}".format(x['Store'], x['Dept'], x['Date_Str'])
    return x

df_train = df_train.apply(apply_id, 1)

使用apply时，每行执行id生成，从而使内存分配的开销最小。

相关问题更多 >

编程相关推荐

热门问题

热门文章