丢失的数据集管理器。

databrewer的Python项目详细描述


数据采集器

Documentation Statushttps://img.shields.io/pypi/v/databrewer.svghttps://img.shields.io/travis/rolando/databrewer.svgCoverage StatusCode Quality StatusRequirements Status

丢失的数据集管理器。

DataBrewer preview

databrewer允许您搜索和发现数据集。灵感来自自制 创建和索引已知数据集,您可以使用单个 命令。它将提供一个api,允许在 ipython笔记本,因此您不再需要手动下载数据集。

快速启动

安装databrewer

pip install databrewer

更新配方索引:

databrewer update

搜索一些关键字:

databrewer search nyc taxi

示例输出:

andresmh-nyc-taxi-trips - NYC Taxi Trips. Data obtained through a FOIA request
nyc-tlc-taxi            - This dataset includes trip records from all trips
                          completed in yellow and green taxis in NYC in 2014 and
                                                    select months of 2015.

让我们检查一下nyc-tlc-taxidataset:

databrewer info nyc-tlc-taxi

我们可以下载整个数据集(这是巨大的!):

databrewer download nyc-tlc-taxi

或者只是数据集中的几个文件,或者选择一个子集:

databrewer download "nyc-tlc-taxi[green][2014-*]"

注意

注意,*是标准的glob运算符,[green]充当选择器。 选择器取决于如何定义配方。使用选择器时 必须在大多数shell中用引号将名称括起来。

最后,您需要知道文件的位置,以便进一步处理:

databrewer download "nyc-tlc-taxi[green][2014-*]"

示例输出:

/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-01.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-02.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-03.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-04.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-05.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-06.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-07.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-08.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-09.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-10.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-11.csv
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-12.csv

数据集

其目的是索引已知和未知的数据集。没有计划 标准化数据集格式,因为我们希望它保持由 作者。

配方

数据集是在包含数据集信息的配方中定义的 在哪里找到它。

这些菜谱由社区维护,并托管在databrewer-recipes 储存库。

路线图

  • 包括一个api。目前它只提供了一个cli接口,但是 将来它将包含一个api,以便您可以搜索、下载和加载数据集 直接在您的python代码中。

贡献

您可以通过以下方式提供帮助:

有关详细信息,请参见CONTRIBUTING.rst

历史记录

0.1.1(2017-05-05)

解决包装问题。

0.1.0(2017-05-05)

  • pypi上的第一个版本。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在安卓活动上使用uncaughtException对话框   将代数象棋符号转换为棋盘布局或FEN符号的java算法   来自证书的java访问证书签名   正则表达式解析Java字符串特殊字符错误   java将linearlayout动态添加到Relativelayout中   java我怎样才能在ant中不停顿地“失败”构建?   从Java producer到Mongodb的json主题数据   java Log4J 2 Syslog Appender工作不正常   java在Processing 3中在3D对象上绘制2D文本   java Spring MVC Web服务调度程序   mysql Java持久性查找区分大小写的数据检索   java YAML解析器不带密钥的多个根文件   SpringJavaBean需要通过prototype作用域使用相同的对象   由于某种原因,应用程序运行时不会显示java xml文件   java maven在JFrog artifactory(snapshotrepo)中找不到具有第三方libs的jar文件