分块读取文件-RAM使用，从二进制文件读取字符串

def read_in_chunks(file_object, chunk_size=1024): while True: data = file_object.read(chunk_size) if not data: break yield data f = open(file, 'rb') for piece in read_in_chunks(f): process_data(piece) f.close()

2条回答

网友

1楼 · 编辑于 2024-05-19 01:13:37

yield是python中用于生成表达式的关键字。这意味着，下一次调用（或迭代）函数时，执行将在上次调用它时停止的确切点上重新开始。这两个函数的行为是相同的；唯一的区别是第一个函数使用的调用堆栈空间比第二个函数多一点点。然而，第一个是更可重用的，所以从程序设计的角度来看，第一个实际上更好。

EDIT：另外一个区别是，第一个将在读取完所有数据后停止读取（应该是这样的），而第二个将只在f.read()或process_data()引发异常时停止。为了使第二个程序正常工作，您需要对其进行如下修改：

f = open(file, 'rb')
while True:
    piece = f.read(1024)  
    if not piece:
        break
    process_data(piece)
f.close()

网友

2楼 · 编辑于 2024-05-19 01:13:37

我认为最好也是最惯用的方法可能是使用内置的^{}函数和sentinel值来创建和使用iterable，如下所示。请注意，如果文件大小不是请求的块大小的确切倍数，则最后一个块大小可能小于请求的块大小。

from functools import partial

CHUNK_SIZE = 1024
filename = 'testfile.dat'

with open(filename, 'rb') as file:
    for chunk in iter(partial(file.read, CHUNK_SIZE), b''):
        process_data(chunk)

相关问题更多 >

编程相关推荐

热门问题

热门文章