在python中使用多线程下载文件

b = StringIO() z = zipfile.ZipFile(b, 'w', zipfile.ZIP_DEFLATED) def read_file(link): fname = link.split('/') fname = fname[-1] z.write(link, fname) if __name__ == '__main__': form = cgi.FieldStorage() fileLinks = form.getvalue("fileLink") p = Pool(10) p.map(read_file, fileLinks) p.close() p.join() z.close() zipFilename = "DataFiles-" + str(time.time()) + ".zip" length = b.tell() sys.stdout.write( HEADERS % ('application/zip', zipFilename, zipFilename, length) ) b.seek(0) sys.stdout.write(b.read()) b.close()

1条回答

网友

1楼 · 发布于 2024-06-26 14:59:02

问题应该是ZipFile.write()（通常是ZipFile）不是线程安全的。在

您必须以某种方式序列化对zip文件的线程访问。这是一种方法（在Python 3中）：

ziplock = threading.Lock()

def read_file(link):
    fname = link.split('/')
    fname = fname[-1]
    with ziplock:
        z.write(link, fname)

这样做应该没有什么好处，因为锁实际上是在序列化zip文件的创建。在

此版本可以实现一些并行化，即在将文件内容添加到zip文件之前读取文件内容：

^{pr2}$

但是，如果这些文件驻留在同一个文件系统上，那么读操作很可能会像操作系统序列化了它们一样。在

因为它是文件，所以并行化的可能目标是进程中CPU受限的部分，即压缩，而对于zip格式，这似乎是不可能的（因为zip文件的行为类似于一个目录，所以每个write()必须保持状态，以便在close()上生成完整的存档）。在

如果您可以使用不同的压缩格式，那么并行化将在没有锁的情况下工作，使用gizp进行压缩，tar（tarfile）作为存档格式，因为每个文件都可以并行读取和压缩，并且只有tar连接将按顺序进行（即.tar.gz或.tgz存档格式）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章