H5Py和存储

import h5py # Make the file h5py_file = h5py.File(filename, "a") # Tell it we are going to store a dataset myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip") for i in np.arange(numberOfChunks): myArrayChunk = #... do some calculation to obtain chunk myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk

import h5py # Read in the file h5py_file = h5py.File(filename, "a") # Read in myArray myArray = h5py_file['myArray'] for i in np.arange(numberOfChunks): # Read in chunk myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] # ... Do some calculation on myArrayChunk

1条回答

网友

1楼 · 发布于 2024-09-30 20:38:14

你有基本的想法。说“保存到内存”时要小心。NumPy阵列保存在内存（RAM）中。HDF5数据保存在磁盘上（不是内存/RAM！），然后被访问（使用的内存取决于访问方式）。在第一步中，您将创建数据块并将其写入磁盘。在第二步中，您将以块的形式从磁盘访问数据。最后提供了工作示例

当使用h5py读取数据时，有两种读取数据的方法：
这将返回一个NumPy数组：
myArrayNP = myArray[:,:,:]
这将返回一个像NumPy数组一样运行的h5py数据集对象：
myArrayDS = myArray

区别在于：h5py数据集对象不会一次全部读入内存。然后，您可以根据需要对其进行切片。从上面继续，这是获取数据子集的有效操作：
myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]

我的示例还纠正了chunksize增量公式中的一个小错误。你有：
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
您想要：
myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk

工作示例（写入和读取）：

import h5py
import numpy as np

# Make the file
with h5py.File("SO_61173314.h5", "w") as h5w:

    numberOfChunks = 3
    chunkSize = 4
    print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )
    # Write dataset to disk
    h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")

    for i in range(numberOfChunks):

       h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)
       print (h5ArrayChunk)

       h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk


with h5py.File("SO_61173314.h5", "r") as h5r:
    print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )

    # Access myArray dataset - Note: This is NOT a NumpPy array
    myArray = h5r['myArray']

    for i in range(numberOfChunks):

       # Read a chunk into memory (as a NumPy array)
       myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]

       # ... Do some calculation on myArrayChunk  
       print (myArrayChunk)

相关问题更多 >

编程相关推荐

热门问题

热门文章

H5Py和存储

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >