在df.toPandas（）到_csv（'mycsv.csv'）之后，数据在重新读取时被篡改

1条回答

网友

1楼 · 发布于 2024-06-02 11:12:00

默认情况下，^{}将索引添加到CSV导出（来自文档）：

index: boolean, default True
Write row names (index)

您可以在不使用索引的情况下导出到CSV：

result_25.toPandas().to_csv('mycsv.csv', index=False)

您将不会看到附加列_c0（列名称_c0是由pyspark添加的，因为pandas没有为索引列指定任何名称）

如果您只使用spark（不需要以人类可读的格式保存数据帧），另一种避免这种情况的方法是以其他格式（如JSON或parquet）写入/读取pyspark数据帧：

# JSON
result_25.write.json('mydataframe.json')
rr = spark.read.json('mydataframe.json')

# parquet
result_25.write.parquet('mydataframe.parquet')
rr = spark.read.parquet('mydataframe.parquet')

编程相关推荐

java如何比较二维交错数组中列中元素的长度
java依赖javafx是安全的。util。回电话？
用于格式化二进制数的正则表达式，在Java中，从右到左每4个字符使用空格
java我应该在基于Springboot的后端使用headless模式吗？
java Hibernate获取数据。list（）已去润滑，表未映射。怎么办？
java Spring引导存储库，包括示例、规范和页面
java使用UUID。randomUUID（）和多次调用方法？
每个客户端请求的Java DatagramSocket不同线程
字符串中的java表达式到arraylist
数组循环遍历word文档和图像，并存储到SQL java

相关问题更多 >

编程相关推荐

热门问题

热门文章

在df.toPandas（）到_csv（'mycsv.csv'）之后，数据在重新读取时被篡改

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >