如何在Spark中读取零字节的文件

2024-09-30 08:36:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试读取一个带有readoption{}的文本文件，该文件返回一个DataFrame，在输入目录中每个文件包含一行。可能发生的情况是，文件为空，包含zero bytes。本例中的输出类似于DataFrame：

+------+
|values|
+------+
+------+

Spark似乎跳过了这些文件。是否有可能修改read-statement：

spark.read.option({"wholeText": True}).text('/source/dir')

为了也能读入那些空文件？例如，可以插入任何虚拟字符，以使返回的DataFrame看起来如下：

+------------+
|values      |
+------------+
|dummy-string|
+------------+

到目前为止，我无法在Spark中找到适合读取的option。。。提前谢谢

Tags：文件目录 dataframe read bytes 情况 spark statement

0条回答

目前没有回答