读取pySp中的文件范围 - 问答 - Python中文网

读取pySp中的文件范围

2024-10-01 17:36:32 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要读取pySpark中的连续文件。以下是我的工作。在

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件8-14？在

Tags：文件 from import df read sql load events

2条回答

网友

1楼 · 编辑于 2024-10-01 17:36:32

使用大括号。在

文件=“events.parquet/exportDay=201509{08,09,10,11,12,13,14}”

这里有一个关于堆栈溢出的类似问题：Pyspark select subset of files using regex glob。他们建议要么使用大括号，要么执行多次读取，然后将对象联合起来（不管它们是RDD还是数据帧或其他什么，应该有某种方法）。在

网友

2楼 · 编辑于 2024-10-01 17:36:32

我相信它是用贝壳球。在

帖子：How to read multiple text files into a single RDD?

似乎表明下面的方法应该有效。在

““events.parquet/exportDay=2015090[89]，events.parquet/exportDay=2015091[0-4]“

相关问题更多 >

编程相关推荐

热门问题

热门文章