机库是张量数据的版本控制。在数据定义的软件时代,提交、分支、合并、恢复和协作。
hangar的Python项目详细描述
docs | |
---|---|
tests | |
package |
机库是张量数据的版本控制。提交、分支、合并、还原和 在数据定义的软件时代进行协作。
- 免费软件:Apache2.0许可证
什么是机库?
机库是基于这样一种信念:花太多时间收集、管理, 为数据创建自制版本控制系统。在核心机库 旨在解决传统代码版本面临的许多相同问题 控制系统(即Git),仅适用于数值数据:
- 数据集历史演变的时间旅行。
- 零成本分支,实现探索性分析和协作
- 随着时间的推移(与多个协作者)进行廉价合并以构建数据集
- 完全抽象的磁盘数据文件的组织和管理
- 仅检索一小部分数据(根据需要)的能力 保持完整的历史记录
- 能够将更改直接推送到协作者或中心服务器 (即真正的分布式版本控制系统)
版本控制系统为代码库执行这些任务的能力是 今天几乎每个开发人员都认为这是理所当然的;然而,我们 事实上站在巨人的肩膀上,几十年的工程 产生了这些非常有用的工具。现在一个新的时代 “数据定义软件”正在流行,我们发现 模拟版本控制系统,用于处理 大型…欢迎来到机库!
机库工作流程:
Checkout Branch | ▼ Create/Access Data | ▼ Add/Remove/Update Samples | ▼ Commit
日志样式输出:
* 5254ec (master) : merge commit combining training updates and new validation samples |\ | * 650361 (add-validation-data) : Add validation labels and image data in isolated branch * | 5f15b4 : Add some metadata for later reference and add new training samples received after initial import |/ * baddba : Initial commit adding training images and labels
安装
机库是在早期阿尔法开发释放!
pip install hangar
开发
要运行所有测试,请运行:
tox
注意,要合并来自所有tox环境的覆盖率数据,请运行:
Windows | ^{pr 5}$ |
---|---|
Other | ^{pr 6}$ |