PyArrow：增量使用ParquetWriter，而不将整个数据集保留在内存中（比内存拼花文件大）

2024-07-04 06:05:49 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试将一个大的拼花文件写入磁盘（比内存大）。我天真地认为我可以很聪明，使用ParquetWriter和write_table以增量方式编写文件，如（POC）：

import pyarrow as pa
import pyarrow.parquet as pq
import pickle
import time

arrow_schema = pickle.load(open('schema.pickle', 'rb'))
rows_dataframe = pickle.load(open('rows.pickle', 'rb'))

output_file = 'test.parq'

with pq.ParquetWriter(
                output_file,
                arrow_schema,
                compression='snappy',
                allow_truncated_timestamps=True,
                version='2.0',  # Highest available schema
                data_page_version='2.0',  # Highest available schema
        ) as writer:
            for rows_dataframe in function_that_yields_data()
                writer.write_table(
                    pa.Table.from_pydict(
                            rows_dataframe,
                            arrow_schema
                    )
                )

但是，即使I生成块（在我的例子中是10000行）并使用write_table，它仍然将整个数据集保存在内存中

结果表明，ParquetWriter将整个数据集保存在内存中，同时以增量方式写入磁盘

有没有办法强迫ParquetWriter不将整个数据集保存在内存中，或者仅仅因为一些好的原因而不可能

Tags：文件数据内存 import dataframe schema as table

1条回答

网友

1楼 · 发布于 2024-07-04 06:05:49

根据Arrow bug report的分析，这可能是由于元数据的收集造成的，而元数据只能在文件关闭时刷新

PyArrow：增量使用ParquetWriter，而不将整个数据集保留在内存中（比内存拼花文件大）

相关问题更多 >

编程相关推荐

热门问题

热门文章

PyArrow：增量使用ParquetWriter，而不将整个数据集保留在内存中（比内存拼花文件大）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >