用于管理数据的dtool命令行客户端
dtool的Python项目详细描述
通过打包使您的数据更具弹性、可移植性和易于使用 文件和元数据到自包含的数据集中。
- 文档:http://dtool.readthedocs.io
- 纸张:https://doi.org/10.7717/peerj.6562
- 自由软件:麻省理工学院许可证
概述
dtool是一套管理科学数据并使之成为科学数据的软件。 可编程访问。它由命令行接口^{tt1}组成$ 以及一个python api:dtoolcore。
dtool命令行界面允许将文件组织到数据集中 以及在不同的存储解决方案之间移动数据集,例如 本地磁盘到远程对象存储。重要的是,它还提供了 验证传输是否成功。
python api提供了对数据集中的数据和元数据的完全访问。它 使创建用于处理项或项子集的脚本变得容易, 在数据集中。python api还允许构造数据集 程序上。
DTool是可扩展的,这意味着可以为 向命令行界面添加功能和创建界面 自定义存储后端。
dtoolpython包是安装包的元包:
- dtoolcore-核心api
- dtool-cli-cli插件脚手架
- dtool-config-cli用于配置dtool的命令
- dtool-create-cli命令用于创建数据集
- dtool-info-cli命令,用于获取有关数据集的信息
- dtool-symlink-允许数据符号链接的存储代理接口
- dtool-http-存储代理接口,允许通过http对数据集进行只读访问
安装:
$ pip install dtool
有几种对象存储解决方案的支持包:
- dtool-s3-s3对象存储的存储代理接口
- dtool-azure-存储代理到azure存储的接口
- dtool-ecs-存储代理接口到ecs s3对象存储
- dtool-irods-存储代理与irods的接口
如果您可以访问amazon s3、microsoft azure、ecs s3或irods存储,您可能还需要安装对这些存储的支持:
$ pip install dtool-s3 dtool-azure dtool-ecs dtool-irods
用法:
$ dtool create my-awesome-dataset Created proto dataset file:///Users/olssont/my-awesome-dataset Next steps: 1. Add raw data, eg: dtool add item my_file.txt file:///Users/olssont/my-awesome-dataset Or use your system commands, e.g: mv my_data_directory /Users/olssont/my-awesome-dataset/data/ 2. Add descriptive metadata, e.g: dtool readme interactive file:///Users/olssont/my-awesome-dataset 3. Convert the proto dataset into a dataset: dtool freeze file:///Users/olssont/my-awesome-dataset