如何在Sp中以覆盖模式编写gzip压缩的JSON - 问答 - Python中文网

如何在Sp中以覆盖模式编写gzip压缩的JSON

2024-10-01 07:11:13 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个Spark dataframe，希望在覆盖现有输出的同时将其写入特定的输出目录，并使用gzip压缩它。我成功地获得了gzip或overwrite行为，但不是两者都成功。在

对于编写gzipped数据，此方法有效：

df.toJSON() \
  .saveAsTextFile(output_path, compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec')

要执行覆盖操作，请执行以下操作：

^{pr2}$

看看docs似乎可以将选项传递给save方法，但我尝试过的每个变量都不起作用。在

Tags：数据 path 方法 org 目录 dataframe df output

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章