如何使用pyarrow存储自定义拼花地板数据集元数据？

meta = pq.read_metadata('temp.parq/_common_metadata') custom_metadata = { b'type': b'mydataset' } merged_metadata = { **custom_metadata, **meta.metadata } # TODO: Construct FileMetaData object with merged_metadata new_meta.write_metadata_file('temp.parq/_common_metadata')

1条回答

网友

1楼 · 发布于 2024-05-20 08:21:00

一种可能性（不能直接回答这个问题）是使用dask

import dask

# Sample data
df = dask.datasets.timeseries()

df.to_parquet('test.parq', custom_metadata={'mymeta': 'myvalue'})

Dask通过将元数据写入目录中的所有文件来实现这一点，包括_common_metadata和_metadata

from pathlib import Path
import pyarrow.parquet as pq

files = Path('test.parq').glob('*')

all([b'asdf' in pq.ParquetFile(file).metadata.metadata for file in files])
# True

编程相关推荐

java将json反序列化为列表<Object>
Spring框架中的java回滚机制
java如何使反射在JDK 16及更高版本上工作？
java终结器如何导致可移植性问题？
java Hibernate使用ON子句或alternative左连接获取
java aws codebuild maven项目失败“保存的引用不明确”
并发Java多线程读取单个大文件
java如果输入仅由1和0组成，请将其从二进制转换为十进制
java在RealmRecyServiceAdapter上调用updateData实际上并没有更新数据
javajsf:h commandlink操作是打开同一页面的新弹出窗口，而不是调用bean方法

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pyarrow存储自定义拼花地板数据集元数据？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >