我正面临pyspark2.2 csv writer outpu的问题

2024-09-21 03:01:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把pyspark代码从1.6迁移到2.x。在1.6中,我使用了语法

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .format(file_format) \
    .option("header", "true") \
    .save(nfs_path)

以下面的格式输出

第00000部分

第00001部分

是的。 .

我在pyspark2.2中运行了相同的代码,它给了我不同的部件文件名

第00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv部分

零件号:00001-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

然后我按照2.x修改代码

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .option("header", "true") \
    .csv(nfs_path)

但结果还是一样

第00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv部分

有人能帮我解释为什么会这样吗


Tags: ofcsv代码formatnumberdfinputmode

热门问题