我想从S3读取多个拼花文件到一个数据帧中。目前,我正在使用以下方法执行此操作:
files = ['s3a://dev/2017/01/03/data.parquet',
's3a://dev/2017/01/02/data.parquet']
df = session.read.parquet(*files)
如果所有的文件都存在于S3上,这是可行的,但是我希望在列表中的某些文件不存在时,请求将文件列表加载到数据帧中而不中断。换句话说,我希望sparkSql将找到的尽可能多的文件加载到dataframe中,并毫无怨言地返回这个结果。这可能吗?
目前没有回答
相关问题 更多 >
编程相关推荐