使用pandas.DataFrame.to_拼花地板控制行组 - 问答 - Python中文网

使用pandas.DataFrame.to_拼花地板控制行组

2024-05-20 12:11:43 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

要将拼花地板文件读入多个分区，应该使用行组存储它（请参见How to read a single large parquet file into multiple partitions using dask/dask-cudf?）。熊猫文档describes partitioning of columns，熊猫文档pyarrow documentation describes how to write multiple row groups。使用pandas DataFrame.to_parquet方法，我可以接口写入多个行组，还是总是写入单个分区？如果是，如何进行

尽管数据集很小（目前只有3 GB），但我希望read into multiple partitions这样使用dask的后续处理将使用多个核（我可以重新分区，但这会产生额外的开销）（我可能在以后使用大约10 GB的数据集，仍然很小，但对于RAM来说太大）

Tags：文件 to 数据文档 read multiple dask 分区

1条回答

网友

1楼 · 发布于 2024-05-20 12:11:43

使用pyarrow时，只需提供关键字参数row_group_size。请注意，pyarrow是默认引擎

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")

相关问题更多 >

编程相关推荐

热门问题

热门文章