丢失的数据集管理器。
databrewer的Python项目详细描述
数据采集器
丢失的数据集管理器。
- 自由软件:麻省理工学院许可证
- 文档:https://databrewer.readthedocs.org。
databrewer允许您搜索和发现数据集。灵感来自自制 创建和索引已知数据集,您可以使用单个 命令。它将提供一个api,允许在 ipython笔记本,因此您不再需要手动下载数据集。
快速启动
安装databrewer:
pip install databrewer
更新配方索引:
databrewer update
搜索一些关键字:
databrewer search nyc taxi
示例输出:
andresmh-nyc-taxi-trips - NYC Taxi Trips. Data obtained through a FOIA request nyc-tlc-taxi - This dataset includes trip records from all trips completed in yellow and green taxis in NYC in 2014 and select months of 2015.
让我们检查一下nyc-tlc-taxidataset:
databrewer info nyc-tlc-taxi
我们可以下载整个数据集(这是巨大的!):
databrewer download nyc-tlc-taxi
或者只是数据集中的几个文件,或者选择一个子集:
databrewer download "nyc-tlc-taxi[green][2014-*]"
注意
注意,*是标准的glob运算符,[green]充当选择器。 选择器取决于如何定义配方。使用选择器时 必须在大多数shell中用引号将名称括起来。
最后,您需要知道文件的位置,以便进一步处理:
databrewer download "nyc-tlc-taxi[green][2014-*]"
示例输出:
/Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-01.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-02.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-03.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-04.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-05.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-06.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-07.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-08.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-09.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-10.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-11.csv /Users/rolando/.databrewer/datasets/nyc-tlc-taxi/green_tripdata_2014-12.csv
数据集
其目的是索引已知和未知的数据集。没有计划 标准化数据集格式,因为我们希望它保持由 作者。
路线图
- 包括一个api。目前它只提供了一个cli接口,但是 将来它将包含一个api,以便您可以搜索、下载和加载数据集 直接在您的python代码中。
历史记录
0.1.1(2017-05-05)
解决包装问题。
0.1.0(2017-05-05)
- pypi上的第一个版本。