读取pySp中的文件范围

2024-10-01 17:36:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要读取pySpark中的连续文件。以下是我的工作。在

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件8-14?在


Tags: 文件fromimportdfreadsqlloadevents
2条回答

使用大括号。在

文件=“events.parquet/exportDay=201509{08,09,10,11,12,13,14}”

这里有一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议要么使用大括号,要么执行多次读取,然后将对象联合起来(不管它们是RDD还是数据帧或其他什么,应该有某种方法)。在

我相信它是用贝壳球。在

帖子:How to read multiple text files into a single RDD?

似乎表明下面的方法应该有效。在

““events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]“

相关问题 更多 >

    热门问题