在pyp中写入CSV文件时选择编码

# read main tabular data sp_df = spark.read.csv(file_path, header=True, sep=';', encoding='cp1252') sp_df.show(5) +----------+---------+--------+---------+------+ | Date| Zone| Duree| Type|Volume| +----------+---------+--------+---------+------+ |2019-01-16|010010000| 30min3h|Etrangers| 684| |2019-01-16|010010000| 30min3h| Français| 21771| |2019-01-16|010010000|Inf30min|Etrangers| 7497| |2019-01-16|010010000|Inf30min| Français| 74852| |2019-01-16|010010000| Sup3h|Etrangers| 429| +----------+---------+--------+---------+------+ only showing top 5 rows

1条回答

网友

1楼 · 发布于 2024-05-18 14:22:10

根据official documentation，编码是一个选项，您应该直接将它放在csv方法中，就像您使用它进行读取一样。在

sp_df.repartition(5, 'Zone').write.option('encoding', 'cp1252').csv(output_path, mode='overwrite', sep=';', compression='gzip')

成为

^{pr2}$

您编写它的方式被csv方法encoding=None的默认参数覆盖，这将导致UTF-8编码。在

相关问题更多 >

编程相关推荐

热门问题

热门文章