是否可以在不使用pyarrow将parquet文件从一个文件夹读写到另一个文件夹,而不需要转换成pandas。在
这是我的代码:
import pyarrow.parquet as pq
import pyarrow as pa
import s3fs
s3 = s3fs.S3FileSystem()
bucket = 'demo-s3'
pd = pq.Parquetdataset('s3://{0}/old'.format(bucket), filesystem=s3).read(nthreads=4).to_pandas()
table = pa.Table.from_pandas(pd)
pq.write_to_dataset(table, 's3://{0}/new'.format(bucket), filesystem=s3, use_dictionary=True, compression='snappy')
如果您不想直接复制文件,那么您确实可以避免使用pandas,因此:
为什么不直接复制(S3->;S3)并节省内存和I/O呢?在
Reference
相关问题 更多 >
编程相关推荐