Pyarrow从s3读/写

import pyarrow.parquet as pq import pyarrow as pa import s3fs s3 = s3fs.S3FileSystem() bucket = 'demo-s3' pd = pq.Parquetdataset('s3://{0}/old'.format(bucket), filesystem=s3).read(nthreads=4).to_pandas() table = pa.Table.from_pandas(pd) pq.write_to_dataset(table, 's3://{0}/new'.format(bucket), filesystem=s3, use_dictionary=True, compression='snappy')

2条回答

网友

1楼 · 编辑于 2024-09-26 18:06:50

如果您不想直接复制文件，那么您确实可以避免使用pandas，因此：

table = pq.ParquetDataset('s3://{0}/old'.format(bucket),
    filesystem=s3).read(nthreads=4)
pq.write_to_dataset(table, 's3://{0}/new'.format(bucket), 
    filesystem=s3, use_dictionary=True, compression='snappy')

网友

2楼 · 编辑于 2024-09-26 18:06:50

为什么不直接复制（S3->；S3）并节省内存和I/O呢？在

import awswrangler as wr

SOURCE_PATH = "s3://..."
TARGET_PATH = "s3://..."

objs = wr.s3.list_objects(path=SOURCE_PATH)
wr.s3.copy_listed_objects(
    objects_paths=objs,
    source_path=SOURCE_PATH,
    target_path=TARGET_PATH,
    mode="append",  # Could be append, overwrite or overwrite_partitions
)

Reference

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyarrow从s3读/写

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >