我想从AWS3中阅读精选的拼花板文件列表。我知道如何使用*parquet读取目录中的所有文件,或者只通过指定该键来读取单个文件。然而,我只想阅读一个基于先前用户输入的特定文件列表。在
这可能吗?在
以下代码来自他们的API文档,但不能满足我的要求:
import dask.dataframe as dd
df = dd.read_parquet('s3://bucket/path/to/data-*.parque')
(OR)
df = dd.read_parquet('s3://bucket/path/to/file.parque')
有没有办法在read_parquet参数中传入目标文件列表?在
使用Boto3,找到所有的对象键,然后列出所需的所有对象,并用这些对象创建一个列表,并将它们以for循环的形式传递给DFs
使用S3fs,您可以像在Linux中那样列出对象,您可以将所有对象名存储在一个列表中,然后在for循环中将其逐个传递给DF
关于Boto3获取特定对象的详细信息:Boto3: grabbing only selected objects from the S3 resource
s3fs的源:https://medium.com/swlh/using-s3-just-like-a-local-file-system-in-python-497737783f11
相关问题 更多 >
编程相关推荐