我有一个Spark dataframe,希望在覆盖现有输出的同时将其写入特定的输出目录,并使用gzip压缩它。我成功地获得了gzip或overwrite行为,但不是两者都成功。在
对于编写gzipped数据,此方法有效:
df.toJSON() \
.saveAsTextFile(output_path, compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec')
要执行覆盖操作,请执行以下操作:
^{pr2}$看看docs似乎可以将选项传递给save方法,但我尝试过的每个变量都不起作用。在
目前没有回答
相关问题 更多 >
编程相关推荐