如何在Spark中读取零字节的文件

2024-09-30 08:36:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试读取一个带有readoption{}的文本文件,该文件返回一个DataFrame,在输入目录中每个文件包含一行。可能发生的情况是,文件为空,包含zero bytes。本例中的输出类似于DataFrame

+------+
|values|
+------+
+------+

Spark似乎跳过了这些文件。是否有可能修改read-statement

spark.read.option({"wholeText": True}).text('/source/dir')

为了也能读入那些空文件?例如,可以插入任何虚拟字符,以使返回的DataFrame看起来如下:

+------------+
|values      |
+------------+
|dummy-string|
+------------+

到目前为止,我无法在Spark中找到适合读取的option。。。 提前谢谢


Tags: 文件目录dataframereadbytes情况sparkstatement

热门问题