使用pandas.DataFrame.to_拼花地板控制行组

2024-05-20 12:11:43 发布

您现在位置:Python中文网/ 问答频道 /正文

要将拼花地板文件读入多个分区,应该使用行组存储它(请参见How to read a single large parquet file into multiple partitions using dask/dask-cudf?)。熊猫文档describes partitioning of columns,熊猫文档pyarrow documentation describes how to write multiple row groups。使用pandas DataFrame.to_parquet方法,我可以接口写入多个行组,还是总是写入单个分区?如果是,如何进行

尽管数据集很小(目前只有3 GB),但我希望read into multiple partitions这样使用dask的后续处理将使用多个核(我可以重新分区,但这会产生额外的开销)(我可能在以后使用大约10 GB的数据集,仍然很小,但对于RAM来说太大)


Tags: 文件to数据文档readmultipledask分区