如何在Sp中以覆盖模式编写gzip压缩的JSON

2024-10-01 07:11:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Spark dataframe,希望在覆盖现有输出的同时将其写入特定的输出目录,并使用gzip压缩它。我成功地获得了gzip或overwrite行为,但不是两者都成功。在

对于编写gzipped数据,此方法有效:

df.toJSON() \
  .saveAsTextFile(output_path, compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec')

要执行覆盖操作,请执行以下操作:

^{pr2}$

看看docs似乎可以将选项传递给save方法,但我尝试过的每个变量都不起作用。在


Tags: 数据path方法org目录dataframedfoutput