pandas.concat和numpy.append的大数据集出现内存错误

import pandas as pd import numpy as np nbIds = 376 dataids = range(nbIds) dataCollection1 = [] dataCollection2 = [] for bs in range(50): newData1 = pd.DataFrame( np.reshape(np.random.uniform(size = 2000 * len(dataids)), (2000,len(dataids )))) dataCollection1.append( newData1 ) newData2 = pd.DataFrame( np.reshape(np.random.uniform(size = 2000 * len(dataids)), (2000,len(dataids )))) dataCollection2.append( newData2 ) dataCollection1 = pd.concat(dataCollection1).reset_index(drop = True) dataCollection2 = pd.concat(dataCollection2).reset_index(drop = True)

import pandas as pd import numpy as np nbIds = 665 dataids = range(nbIds) dataCollection1 = dict( (i , np.array([])) for i in dataids ) dataCollection2 = dict( (i , np.array([])) for i in dataids ) for bs in range(50): newData1 = np.reshape(np.random.uniform(size = 2000 * len(dataids)), (2000,len(dataids ))) newData1 = pd.DataFrame(newData1) newData2 = np.reshape(np.random.uniform(size = 2000 * len(dataids)), (2000,len(dataids))) newData2 = pd.DataFrame(newData2) for i in dataids : dataCollection1[i] = np.append(dataCollection1[i] , np.array(newData1[i])) dataCollection2[i] = np.append(dataCollection2[i] , np.array(newData2[i]))

3条回答

网友

1楼 · 编辑于 2024-09-24 22:19:28

正如使用eathstar、Boud和Jeff在评论中所建议的那样，切换到64位python可以做到这一点。
如果精度损失不是问题，那么使用Jeff建议的float32数据类型也会增加在32位环境中可以处理的数据量。

网友

2楼 · 编辑于 2024-09-24 22:19:28

一个简单的（但使用硬盘驱动器）方法是简单地使用shelve（硬盘驱动器dict）：http://docs.python.org/2/library/shelve.html

网友

3楼 · 编辑于 2024-09-24 22:19:28

这基本上就是你在做的。请注意，如果在数据帧之前或之后进行转换，则从内存角度看，这并没有多大区别。

但您可以指定dtype='float32'来有效地占用1/2内存。

In [45]: np.concatenate([ np.random.uniform(size=2000 * 1000).astype('float32').reshape(2000,1000) for i in xrange(50) ]).nbytes
Out[45]: 400000000

In [46]: np.concatenate([ np.random.uniform(size=2000 * 1000).reshape(2000,1000) for i in xrange(50) ]).nbytes
Out[46]: 800000000

In [47]: DataFrame(np.concatenate([ np.random.uniform(size=2000 * 1000).reshape(2000,1000) for i in xrange(50) ]))
Out[47]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Columns: 1000 entries, 0 to 999
dtypes: float64(1000)

相关问题更多 >

编程相关推荐

热门问题

热门文章