在ec2实例集群上启动和运行命令的工具
ec2-cluster的Python项目详细描述
EC2集群
简单的库和cli来管理和使用ec2实例的集群。多用途,但创建的目的是使分布式深度学习基础设施更容易。
ec2-cluster
是为简单的分布式任务而设计的,在这些任务中,kubernetes的杀伤力过大,或者快速的集群上下自旋是至关重要的。示例用例在一个昂贵的集群上运行分布式深度学习,或者从许多ec2实例运行分布式负载测试。
目标
- 提供在ec2实例上运行分布式深度学习培训作业的最小功能集。
- 提供库,而不是框架或平台。
- 使群集环境可重复以允许实验并行化
- 使群集快速启动
- 适应EC2容量限制
- 鼓励短暂的基础设施设计
- 专注于迭代的,而不是破坏性的,对手动启动ec2实例、对其进行ssh连接、手动配置环境和运行脚本的常见方法的改进
概述
ec2-cluster
有两种消费方式:
- 用于启动、描述和删除群集的cli。
- 用于编写脚本的python库。
这个库有三个主要组件:l
- infra:创建群集基础结构
- orch:编排简单的运行时群集配置(例如,使用运行时IP生成主机文件)
- control:在集群上运行命令