我可以从S3将多个文件读入Spark数据帧,并传递不存在的文件吗?

2024-05-20 08:20:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从S3读取多个拼花文件到一个数据帧中。目前,我正在使用以下方法执行此操作:

files = ['s3a://dev/2017/01/03/data.parquet',
         's3a://dev/2017/01/02/data.parquet']
df = session.read.parquet(*files)

如果所有的文件都存在于S3上,这是可行的,但是我希望在列表中的某些文件不存在时,请求将文件列表加载到数据帧中而不中断。换句话说,我希望sparkSql将找到的尽可能多的文件加载到dataframe中,并毫无怨言地返回这个结果。这可能吗?


Tags: 文件数据方法devdf列表readdata