python支持拼花文件格式

workbenchdata-fastparquet的Python项目详细描述


https://travis-ci.org/jcrobak/parquet-python.svg?branch=master

fastparquet是parquet format的python实现,旨在集成 进入基于python的大数据工作流程。

并不是拼花格式的所有部分都已经实现或测试过了 请参阅下面链接的待办事项。话虽如此, FastParquet能够从 parquet-compatability 项目。

简介

此项目的详细信息可以在documentation中找到。

原始计划中列出了预期功能,可在 this issue。 请随时就清单上缺少的项目和优先事项发表意见, 或者用错误或请求提出新问题。

要求

(所有开发都针对默认anaconda频道中的最新版本)

必需:

可选(压缩算法;gzip始终可用):

  • snappy(又名python snappy)
  • lzo
  • 布罗特利
  • LZ4
  • Z标准

安装

使用conda安装:

conda install -c conda-forge fastparquet

从pypi安装:

pip install fastparquet

或者从github安装最新版本:

pip install git+https://github.com/dask/fastparquet

对于pip方法,numba必须以前安装过(使用conda)。

用法

正在读取

fromfastparquetimportParquetFilepf=ParquetFile('myfile.parq')df=pf.to_pandas()df2=pf.to_pandas(['col1','col2'],categories=['col1'])

您可以指定要加载哪些列,将哪些列保留为类别 (如果数据使用字典编码)。文件路径可以是单个文件, 指向其他数据文件的元数据文件,或包含 数据文件。后者通常由蜂巢/火花输出。

正在写入

fromfastparquetimportwritewrite('outfile.parq',df)write('outfile2.parq',df,row_group_offsets=[0,10000,20000],compression='GZIP',file_scheme='hive')

默认情况下,生成一个包含一个行组的输出文件 (即逻辑段)无压缩。目前,只有简单的 支持数据类型和纯编码,因此预期性能为 类似于numpy.savez

历史记录

自2016年10月初以来,这个parquet-python的岔口 正在进行相当大的重建。我们的目标是 以及performant库,用于从python读取和编写拼花格式。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java密钥安全如何确保密钥安全?   java Webelement屏幕截图错误   java Selenium:我正在使用Firefox版本46.01,并在显示的ECLIPSE错误消息中进行了测试   javascript Jquery自动完成不向java传递值   javajavax。坚持不懈persistenceexception eclipselink4002(eclipse持久性服务2.5.2.v 20140319   java检查大型HashMap是否包含键的最佳方法?   java如何解决连接mssql时的JNDI错误   modelandview内部重定向和重定向之间的java差异   swing如何处置未使用的JavaUI对象   java在数组中多次存储同一引用项,一次更改会影响所有引用项吗?   java项目Euler#14:为什么我的树形映射算法比暴力慢?   java如何使用不同的分隔符连接配置单元列   java在部署在不同服务器上的两个WAR之间共享pojo对象   Spring控制器中的java JSR303验证和获取@JsonProperty名称   java检查playstore是否安装了Android应用程序   java从一段字符串中选择一个单词?   当发生特定选择时显示组合框的java   大量调用后,构造函数中的JAVA数组复制速度异常缓慢   java无法使用KeyListner移动我的图像   使用Spring MVC和线程保存java实体