我正在尝试将Pandas数据帧写入分区文件:
df.to_parquet('output.parquet', engine='pyarrow', partition_cols = ['partone', 'partwo'])
TypeError: __cinit__() got an unexpected keyword argument 'partition_cols'
从文档中,我预期partition_cols
将作为kwargs传递给pyarrow库。如何使用pandas将分区文件写入本地磁盘?在
Tags:
Pandas} )的薄型包装,^{} 不支持编写分区数据集。您应该改用
DataFrame.to_parquet
是table = pa.Table.from_pandas(...)
和pq.write_table(table, ...)
(请参见^{pq.write_to_dataset
。在有关详细信息,请参阅pyarrow documentation。在
通常,在读/写parquet文件时,我总是直接使用PyArrow API,因为Pandas包装器的功能相当有限。在
您需要更新到Pandas 0.24或更高版本。分区的功能从该版本开始添加。在
相关问题 更多 >
编程相关推荐