我正在尝试读取一个带有readoption
{DataFrame
,在输入目录中每个文件包含一行。可能发生的情况是,文件为空,包含zero bytes
。本例中的输出类似于DataFrame
:
+------+
|values|
+------+
+------+
Spark似乎跳过了这些文件。是否有可能修改read-statement
:
spark.read.option({"wholeText": True}).text('/source/dir')
为了也能读入那些空文件?例如,可以插入任何虚拟字符,以使返回的DataFrame
看起来如下:
+------------+
|values |
+------------+
|dummy-string|
+------------+
到目前为止,我无法在Spark中找到适合读取的option
。。。
提前谢谢
目前没有回答
相关问题 更多 >
编程相关推荐