要将拼花地板文件读入多个分区,应该使用行组存储它(请参见How to read a single large parquet file into multiple partitions using dask/dask-cudf?)。熊猫文档describes partitioning of columns,熊猫文档pyarrow documentation describes how to write multiple row groups。使用pandas DataFrame.to_parquet
方法,我可以接口写入多个行组,还是总是写入单个分区?如果是,如何进行
尽管数据集很小(目前只有3 GB),但我希望read into multiple partitions这样使用dask的后续处理将使用多个核(我可以重新分区,但这会产生额外的开销)(我可能在以后使用大约10 GB的数据集,仍然很小,但对于RAM来说太大)
使用pyarrow时,只需提供关键字参数
row_group_size
。请注意,pyarrow是默认引擎相关问题 更多 >
编程相关推荐