Python parq_专题 - Python中文网

如何使用pyarrow存储自定义拼花地板数据集元数据？

如何使用pyarrow将自定义元数据存储到ParquetDataset 例如，如果我使用Dask创建拼花地板数据集 import dask dask.datasets.timeseries().to_ ...

2024-05-21 已阅读: n次

tl；博士我想根据列的值过滤Dask数据帧，即 data.loc[data[column].lt(value)].to_parquet(path) 尽管每个分区都比可用内存小20倍，但这样做会耗尽 ...

2024-05-21 已阅读: n次

我正在将大量（100到1000）的拼花地板文件读入单个dask数据帧（单机，全部本地）。我意识到 files = ['file1.parq', 'file2.parq', ...] ddf = dd. ...

2024-05-21 已阅读: n次

我有一个由100000+行组成的数据帧，每行有100000列，总计1000000000个浮点值。在我已经在一个csv（制表符分隔）文件中成功地将它们读入一台50核的Xeon机器，内存为250GB，并 ...

2024-05-21 已阅读: n次

我有3.6亿个鸟类观测数据的记录数据帧我想用dask以分布式的方式计算每种鸟类的质心，作为年的函数。在我想做的是： df2 = df.groupby(['VERNACULARNAME', 'ye ...

2024-05-21 已阅读: n次

我试图在数据帧上执行非常简单的UDF操作，但遇到了错误我正在使用一个直接来自PySpark API的示例，唯一的区别是我使用的数据不同（而我的不起作用）这是我的DF： parq.show(3) ...

2024-05-21 已阅读: n次

tl；博士我想 dd.read_parquet('*.parq')['column'].nunique().compute() 但我明白了 WARNING - Worker exceeded 95 ...

2024-05-21 已阅读: n次

我有一个hdf5文件，里面有大约200个组。因此，对于每个组，我做了一个代码，将它们转换成一个拼花板文件，其中包括： fastparquet.write(dir_name + '/' + metric ...

2024-05-21 已阅读: n次

正在阅读拼花地板文件 df_ss_parq = dd.read_parquet("trainSearchStream.parquet/") df_ai_parq = dd.read_parquet(" ...

2024-05-21 已阅读: n次

假设有一个包含多列的数据帧，它看起来像这样（我省略了不必要的列）： +----------------------------------------+ |path ...

2024-05-21 已阅读: n次

在使用pivot_table for Dask Dataframe并将数据保存到Parquet文件后，我将丢失索引列。在 import dask.dataframe as dd import pand ...

2024-05-21 已阅读: n次

fastparquet是parquet format的python实现，旨在集成进入基于python的大数据工作流程。并不是拼花格式的所有部分都已经实现或测试过了请参阅下面链接的待办事项。话虽 ...

2024-05-21 已阅读: n次

fastparquet是parquet format的python实现，旨在集成进入基于python的大数据工作流程。并不是拼花格式的所有部分都已经实现或测试过了请参阅下面链接的待办事项。话虽 ...

2024-05-21 已阅读: n次