Pydata编织器

pydataweaver的Python项目详细描述


logo

Build StatusBuild status (windows)Documentation StatusLicenseJoin the chat at https://gitter.im/weecology/pydataweaver

pydata编织器项目

pydataweaver是一个python工具,它提供了一个简单易用、干净且健壮的数据集成平台。

pydataweaver支持空间数据集(栅格和矢量数据)以及表格数据集的数据集成。

科学中的问题解决涉及并要求研究实体使用被研究实体之间的广泛关联。这些关联是通过收集和整合各种来源和形式的数据而获得的。

由于这些异质的数据集是由不同的科学家收集的,因此这些数据集是基于领域的,或者是围绕一个独特的问题子集。

pydataweaver弥补了gap科学家的不足,因为他们没有可以用于多维特征分析的易于统一的数据集。数据编织器处理形成新数据集的异构数据集的查找和集成。

依赖关系

此软件包需要Python3.5+,建议使用Python3.6+,具体取决于以下软件包:

 retriever
 PyMySQL>=0.4
 psycopg2-binary
 gdal
 future
 numpydoc
 pandas

可以使用pip安装它们。

  sudo pip install -r requirements.txt

该软件包支持以下数据库管理系统(DBMS):

DBMSSpatial DatasetsTabular Datasets
PostgreSQLYesYes
SQLiteNoYes

安装

  pip install pydataweaver

从源安装

使用pip直接从github安装:

  pip install git+https://git@github.com/weecology/pydataweaver.git

或:

  1. 克隆存储库
  2. 在包含setup.py的目录中,运行以下命令:pip install .。您可能需要在 命令取决于您的系统(即sudo pip install .)。

对于那些对开发感兴趣的人,可以找到更广泛的文档here

使用命令行

安装包后,运行pydataweaverupdate下载最新的可用数据集脚本。 要查看命令行选项和数据集的完整列表,请运行pydataweaver --help

$pydataweaver—帮助

  usage: pydataweaver [-h][-v][-q]{help,ls,citation,license,join,update} ...

  positional arguments:
    {help,ls,citation,license,join,update}
                          sub-command helphelp
      ls                  display a list all available datasets
      citation            view citation
      license             view dataset licenses
      join                integrate data using a data package script
      update              download updated versions of data package scripts

  optional arguments:
    -h, --help            show this help message and exit
    -v, --version         show program's version number and exit
    -q, --quiet           suppress command-line output

要获取可用数据集的列表,请使用pydataweaver ls

$pydataweaver ls

  Available datasets : 11

  breed-bird-routes-bioclim
  mammal-community-bioclim
  mammal-community-masses
  mammal-community-sites-all-bioclim
  mammal-community-sites-bioclim
  mammal-community-sites-harvard-linear-features
  mammal-community-sites-harvard-linear-features-soils
  mammal-community-sites-harvard-soil
  mammal-diet-mammal-life-history
  mammal-sites-bioclim-1-2
  portal-plot-species

  .
  ...

若要查看数据集的引用,请使用“pydataweaver引文[数据集名称] 运行没有引用的pydataweaver将为该工具提供引用。

$ pydataweaver citation mammal-diet-mammal-life-history

  Dataset:  mammal-diet-mammal-life-history
  Description:   Integrated data set of mammal-life-hist and mammal-diet
  Citations:
  mammal-life-hist:    S. K. Morgan Ernest. 2003. ....
  mammal-diet:    Kissling WD, Dalby L, Flojgaard C, Lenoir J, ...

集成数据

要集成数据,请运行pydataweaver join[data package name]并提供连接配置。

  pydataweaver join postgres -h
  usage: pydataweaver join postgres [-h][--user [USER]][--password [PASSWORD]][--host [HOST]][--port [PORT]][--database [DATABASE]][--database_name [DATABASE_NAME]][--table_name [TABLE_NAME]]
                              dataset

  positional arguments:
    dataset               file name

  optional arguments:
    -h, --help            show this help message and exit
    --user [USER], -u [USER]
                          Enter your PostgreSQL username
    --password [PASSWORD], -p [PASSWORD]
                          Enter your password
    --host [HOST], -o [HOST]
                          Enter your PostgreSQL host
    --port [PORT], -r [PORT]
                          Enter your PostgreSQL port
    --database [DATABASE], -d [DATABASE]
                          Enter your PostgreSQL database name
    --database_name [DATABASE_NAME], -a [DATABASE_NAME]
                          Format of schema name
    --table_name [TABLE_NAME], -t [TABLE_NAME]
                          Format of table name

将pydataweaver与postges.pgpass文件集一起使用

  pydataweaver join postgres

或提供命令行配置

  pydataweaver join postgres -u name-of-user -h host-name -d database-to-use

贡献

如果发现此包不支持任何操作,请随意创建github问题。此外,我们非常欢迎您提交一个bug修复或其他特性的请求。

如果发现任何不受此软件包支持的操作,请感觉 免费创建github问题。另外,欢迎您提交 请求错误修复或附加功能的请求。

请看一下Code of Conduct对这个项目的管理贡献。

致谢

这个软件的开发是由the Gordon and Betty Moore Foundation's Data-Driven Discovery InitiativeGrant GBMF4563到ethan white资助的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
virtualbox无法从java移动共享文件夹中的文件   java如何连接Android 4.3.5(GA)的apache HttpClient库?   片段中的java Recyclerview未立即显示警报对话框结果   javac(n,r)计算器程序不工作   java使用BooleanQuery还是编写更多索引?   如何在java中设置y/n循环?   java不兼容的通用通配符捕获   java如何在安卓xml中编写数据绑定时的三元操作条件   java如何使用FileDialog?   java如何创建单元测试来检测是否有人使用错误的编码编辑了文件?   java如何从唯一的字符串生成唯一的int?   java gradletomcatplugin:log4j:WARN找不到记录器的附加程序   java我的动态编程解决方案(Kefa和第一步)在codeforces中有什么问题?   java每天更新两个数据库,使它们都包含相同的有效数据集   java如何检查给定的时间是否在时间限制之间   java在单个json POST上保存父级和子级   java如何获取Solr字段类型