如何有选择地从aws3读取Parquet文件作为Dask数据帧?

2024-09-26 22:54:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从AWS3中阅读精选的拼花板文件列表。我知道如何使用*parquet读取目录中的所有文件,或者只通过指定该键来读取单个文件。然而,我只想阅读一个基于先前用户输入的特定文件列表。在

这可能吗?在

以下代码来自他们的API文档,但不能满足我的要求:

import dask.dataframe as dd

df = dd.read_parquet('s3://bucket/path/to/data-*.parque')
(OR)
df = dd.read_parquet('s3://bucket/path/to/file.parque')

有没有办法在read_parquet参数中传入目标文件列表?在


Tags: 文件topath用户目录df列表read
1条回答
网友
1楼 · 发布于 2024-09-26 22:54:22

使用Boto3,找到所有的对象键,然后列出所需的所有对象,并用这些对象创建一个列表,并将它们以for循环的形式传递给DFs

使用S3fs,您可以像在Linux中那样列出对象,您可以将所有对象名存储在一个列表中,然后在for循环中将其逐个传递给DF

关于Boto3获取特定对象的详细信息:Boto3: grabbing only selected objects from the S3 resource

s3fs的源:https://medium.com/swlh/using-s3-just-like-a-local-file-system-in-python-497737783f11

相关问题 更多 >

    热门问题