意外的拼花文件大小

2024-10-01 00:25:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Spark场景非常陌生,所以如果我在这里犯了一个明显的错误,请耐心等待

在从包含大量数据的源读取和转换后,我正在编写一些拼花地板文件。显示命令确认数据读取成功。我的问题是,当我将拼花地板文件写入目标文件夹时,它们的大小为0(被两列分割后)

这是写入命令:

df.write \
.partitionBy([partition1], [partition2]) \
.mode("overwrite") \
.parquet("dbfs:[destination]")

执行之后,我在log4j输出中看到:

21/06/20 10:35:02 INFO NativeAzureFileSystem: FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] Creating output stream; permission: rw-r--r--, overwrite: true, bufferSize: 65536 21/06/20 10:35:02 INFO NativeAzureFileSystem: FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] Closing stream; size: 0

有人知道为什么大小可能是0吗


Tags: 文件数据命令infocreatefsdestinationfile