python支持拼花文件格式

fastparquet的Python项目详细描述


https://travis-ci.org/jcrobak/parquet-python.svg?branch=master

fastparquet是parquet format的python实现,旨在集成 进入基于python的大数据工作流程。

并不是拼花格式的所有部分都已经实现或测试过了 请参阅下面链接的待办事项。话虽如此, FastParquet能够从 parquet-compatability 项目。

简介

此项目的详细信息可以在documentation中找到。

原始计划中列出了预期功能,可在 this issue。 请随时就清单上缺少的项目和优先事项发表意见, 或者用错误或请求提出新问题。

要求

(所有开发都针对默认anaconda频道中的最新版本)

必需:

可选(压缩算法;gzip始终可用):

  • snappy(又名python snappy)
  • lzo
  • 布罗特利
  • LZ4
  • Z标准

安装

使用conda安装:

conda install -c conda-forge fastparquet

从pypi安装:

pip install fastparquet

或者从github安装最新版本:

pip install git+https://github.com/dask/fastparquet

对于pip方法,numba必须以前安装过(使用conda)。

用法

正在读取

fromfastparquetimportParquetFilepf=ParquetFile('myfile.parq')df=pf.to_pandas()df2=pf.to_pandas(['col1','col2'],categories=['col1'])

您可以指定要加载哪些列,将哪些列保留为类别 (如果数据使用字典编码)。文件路径可以是单个文件, 指向其他数据文件的元数据文件,或包含 数据文件。后者通常由蜂巢/火花输出。

正在写入

fromfastparquetimportwritewrite('outfile.parq',df)write('outfile2.parq',df,row_group_offsets=[0,10000,20000],compression='GZIP',file_scheme='hive')

默认情况下,生成一个包含一个行组的输出文件 (即逻辑段)无压缩。目前,只有简单的 支持数据类型和纯编码,因此预期性能为 类似于numpy.savez

历史记录

自2016年10月初以来,这个parquet-python的岔口 正在进行相当大的重建。我们的目标是 以及performant库,用于从python读取和编写拼花格式。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将json反序列化为列表<Object>   Spring框架中的java回滚机制   java如何使反射在JDK 16及更高版本上工作?   java终结器如何导致可移植性问题?   java Hibernate使用ON子句或alternative左连接获取   java aws codebuild maven项目失败“保存的引用不明确”   并发Java多线程读取单个大文件   java如果输入仅由1和0组成,请将其从二进制转换为十进制   java在RealmRecyServiceAdapter上调用updateData实际上并没有更新数据   javajsf:h commandlink操作是打开同一页面的新弹出窗口,而不是调用bean方法   java我们可以为其中一个变量同时添加@Column和@OneToOne注释吗?   java JBoss AS 7自定义登录模块从未调用   如何检查Java中是否存在数组中的元素   java Spring重试:未调用带@Recover注释的方法   如何解析带有Java错误HTTP格式问题的php消息   java如何在weblogic中部署可选的包共享库   java将配置单元中的数据集保存为avro格式的合并列   用Guice注入java泛型   java单选按钮组和额外选项   javajackson:如何读取字符串作为列表?