一个位于pex或condapack之上的库,使您的Python代码在集群上很容易获得

cluster-pack的Python项目详细描述


集束器

cluster pack是位于pex或{a2}之上的库,可以使Python代码在集群上轻松可用。在

它的目标是使prod/devpython代码库在任何集群上都可以轻松使用。集群包支持HDFS/S3作为分布式存储。在

第一个示例使用Skein(在apacheyarn上部署应用程序的简单库)和带有HDFS存储的PySpark。我们打算为其他应用程序(如DaskRay)和S3存储添加更多示例。在

可以找到一篇介绍博客文章here。在

cluster-pack

安装

安装Pip

$ pip install cluster-pack

从源安装

^{pr2}$

先决条件

集群包支持Python≥3.6。在

特点

  • 提供包含当前虚拟环境或conda环境的所有依赖项的包

  • 存储环境的元数据

  • 通过利用pip的editable installs mode支持“开发中”模式,所有可编辑的需求将一直上传,使本地更改在集群上直接可见

  • 交互式(Jupyter笔记本)模式

  • 提供配置帮助程序以在应用程序中直接使用上载的zip文件

  • 通过传播所有工件从作业启动作业

skein的基本示例

  1. Interactive mode

  2. Self shipping project

PySpark的基本示例

  1. PySpark with HDFS on Yarn

  2. Docker with PySpark on S3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何读取、验证和移动数据。csv文件?   用于在线蛇游戏的java解析scaing   java JavaFX:在窗口上移动元素(阶段)调整大小   mysql如何使用java中的IOUtils包在jsp中显示多个图像?   Java dateFormat不可解析日期异常   spring mvc java。执行单元测试时lang.AssertionError   java在一个webapp中运行多个调度器有什么问题吗?   JAVAlang.ArrayIndexOutofBounds异常:1未来。get()多线程   java使用MDC或spring boot中的任何过滤器屏蔽日志消息中的密码,而不使用logback。xml文件   与应用服务器的java AJP和SSL通信   java Hibernate更新列表中的特定对象   Java小程序:使用keylistener移动多边形   java访问是一个独立于MainActivity的进程   来自服务器的java重复密钥或完整性约束冲突消息:“列“volume”不能为null”   java是否有任何方法可以确保在Flink on job cancel with savepoint上通知所有检查点侦听器检查点完成?