我可以从S3将多个文件读入Spark数据帧，并传递不存在的文件吗？ - 问答 - Python中文网

我可以从S3将多个文件读入Spark数据帧，并传递不存在的文件吗？

2024-05-20 08:20:23 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想从S3读取多个拼花文件到一个数据帧中。目前，我正在使用以下方法执行此操作：

files = ['s3a://dev/2017/01/03/data.parquet',
         's3a://dev/2017/01/02/data.parquet']
df = session.read.parquet(*files)

如果所有的文件都存在于S3上，这是可行的，但是我希望在列表中的某些文件不存在时，请求将文件列表加载到数据帧中而不中断。换句话说，我希望sparkSql将找到的尽可能多的文件加载到dataframe中，并毫无怨言地返回这个结果。这可能吗？

Tags：文件数据方法 dev df 列表 read data

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章