在ec2实例集群上启动和运行命令的工具

ec2-cluster的Python项目详细描述


EC2集群

简单的库和cli来管理和使用ec2实例的集群。多用途,但创建的目的是使分布式深度学习基础设施更容易。

ec2-cluster是为简单的分布式任务而设计的,在这些任务中,kubernetes的杀伤力过大,或者快速的集群上下自旋是至关重要的。示例用例在一个昂贵的集群上运行分布式深度学习,或者从许多ec2实例运行分布式负载测试。

目标

  • 提供在ec2实例上运行分布式深度学习培训作业的最小功能集。
  • 提供库,而不是框架或平台。
  • 使群集环境可重复以允许实验并行化
  • 使群集快速启动
  • 适应EC2容量限制
  • 鼓励短暂的基础设施设计
  • 专注于迭代的,而不是破坏性的,对手动启动ec2实例、对其进行ssh连接、手动配置环境和运行脚本的常见方法的改进

概述

ec2-cluster有两种消费方式:

  • 用于启动、描述和删除群集的cli。
  • 用于编写脚本的python库。

这个库有三个主要组件:l

  • infra:创建群集基础结构
  • orch:编排简单的运行时群集配置(例如,使用运行时IP生成主机文件)
  • control:在集群上运行命令

cli快速启动

库快速启动

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
异常如何在java中优雅地处理FileNotFoundexception   java线程卡在BlockingQueue上。无缘无故   类网格程序w/java   StrutsJava:动态应用Velocity脚本   java在运行时重写/禁用方面   java Apache POI无法正确读取Excel单元格中的秒数   具有不同用户权限的Java文件夹/文件创建   java我可以检查Firebase ValueEventListener onDataChanged是否已被调用吗?   尽管获得了用户权限,java Android开发文件权限仍被拒绝   java如何使用JPA映射map<EnumType,Double>?   java是否使用UI线程显示toast消息?   JAVAlang.IllegalArgumentException:不支持的元素:rss   java Android setRequestedOrientation活动和视图生命周期   安卓如何在Java中定义支票盒?   在Java中,对于大输入,字符串解析长期失败   使Java在XP中按计划任务运行读取env用户变量时出现问题   任务“:workflowsjava:NodeDriver”的梯度执行失败。main()   java如何检测是否只设置了部分属性?   在客户端web服务上使用JBossWS时,java无法找到/更改log4j的默认配置   java LibGDX写入文本文件并接收各种错误