我正在写一些代码,需要将一个非常大的numpy数组保存到内存中。事实上,numpy数组非常大,我无法一次将其全部加载到内存中。但是我可以分块计算数组。也就是说,我的代码看起来像:
for i in np.arange(numberOfChunks):
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation
因为我不能一次将myArray
全部加载到内存中,所以我想一次将它保存到一个文件中,一个“块”。i、 e.我想做这样的事情:
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)
我知道这可以用h5py
来完成,但我有点困惑如何做到这一点。我目前的理解是,我可以做到这一点:
import h5py
# Make the file
h5py_file = h5py.File(filename, "a")
# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
但这就是我有点困惑的地方。我已经读到,如果像我写myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
时那样索引h5py
数据类型,那么myArray
的这部分现在已经被读入内存。当然,在我上面的循环结束时,我现在还没有把整个myArray
都记在内存中吗?这是如何保存我的记忆的
类似地,稍后,我想一次一块地读回我的文件,做进一步的计算。i、 e.我想做一些类似的事情:
import h5py
# Read in the file
h5py_file = h5py.File(filename, "a")
# Read in myArray
myArray = h5py_file['myArray']
for i in np.arange(numberOfChunks):
# Read in chunk
myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
# ... Do some calculation on myArrayChunk
但是在这个循环结束时,整个myArray
现在都在内存中了吗?我对myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
何时在内存中以及何时不在内存中感到有点困惑。请有人解释一下
你有基本的想法。说“保存到内存”时要小心。NumPy阵列保存在内存(RAM)中。HDF5数据保存在磁盘上(不是内存/RAM!),然后被访问(使用的内存取决于访问方式)。在第一步中,您将创建数据块并将其写入磁盘。在第二步中,您将以块的形式从磁盘访问数据。最后提供了工作示例
当使用
h5py
读取数据时,有两种读取数据的方法:这将返回一个NumPy数组:
myArrayNP = myArray[:,:,:]
这将返回一个像NumPy数组一样运行的h5py数据集对象:
myArrayDS = myArray
区别在于:h5py数据集对象不会一次全部读入内存。然后,您可以根据需要对其进行切片。从上面继续,这是获取数据子集的有效操作:
myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]
我的示例还纠正了chunksize增量公式中的一个小错误。 你有:
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
您想要:
myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk
工作示例(写入和读取):
相关问题 更多 >
编程相关推荐