从大量S3下载文件

2024-09-26 22:55:04 发布

您现在位置:Python中文网/ 问答频道 /正文

从amazons3从Python获取大量文件(相对较小的10-50kB)的最快方法是什么?(以200000万个文件的顺序排列)。在

目前,我使用boto生成签名的url,并使用PyCURL逐个获取文件。在

某种类型的并发有帮助吗?PyCurl.CurlMulti反对?在

我愿意接受所有的建议。谢谢!在


Tags: 文件方法url类型建议botoamazons3pycurl
3条回答

您可以考虑使用s3fs,并从Python运行并发文件系统命令。在

我对python一无所知,但一般来说,您需要将任务分解成更小的块,以便它们可以并发运行。您可以按文件类型、字母或其他方式对其进行分解,然后为分解的每个部分运行单独的脚本。在

在python中,由于这是IO绑定的,多个线程将使用CPU,但它可能只会占用一个内核。如果您有多个核心,您可能需要考虑新的multiprocessor模块。即使这样,您可能希望每个进程使用多个线程。你必须对处理器和线程的数量做一些调整。在

如果您使用多个线程,这是Queue类的一个很好的候选者。在

相关问题 更多 >

    热门问题