如何使用Pandas编写分区拼花文件

2024-10-01 19:20:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将Pandas数据帧写入分区文件:

df.to_parquet('output.parquet', engine='pyarrow', partition_cols = ['partone', 'partwo'])

TypeError: __cinit__() got an unexpected keyword argument 'partition_cols'

从文档中,我预期partition_cols将作为kwargs传递给pyarrow库。如何使用pandas将分区文件写入本地磁盘?在


Tags: 文件to数据pandasdfoutputengine分区
2条回答

PandasDataFrame.to_parquettable = pa.Table.from_pandas(...)pq.write_table(table, ...)(请参见^{})的薄型包装,^{}不支持编写分区数据集。您应该改用pq.write_to_dataset。在

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

df = pd.DataFrame(yourData)
table = pa.Table.from_pandas(df)

pq.write_to_dataset(
    table,
    root_path='output.parquet',
    partition_cols=['partone', 'parttwo'],
)

有关详细信息,请参阅pyarrow documentation。在

通常,在读/写parquet文件时,我总是直接使用PyArrow API,因为Pandas包装器的功能相当有限。在

您需要更新到Pandas 0.24或更高版本。分区的功能从该版本开始添加。在

相关问题 更多 >

    热门问题