一个位于pex或condapack之上的库,使您的Python代码在集群上很容易获得
cluster-pack的Python项目详细描述
集束器
cluster pack是位于pex或{a2}之上的库,可以使Python代码在集群上轻松可用。在
它的目标是使prod/devpython代码库在任何集群上都可以轻松使用。集群包支持HDFS/S3作为分布式存储。在
第一个示例使用Skein(在apacheyarn上部署应用程序的简单库)和带有HDFS存储的PySpark。我们打算为其他应用程序(如Dask,Ray)和S3存储添加更多示例。在
可以找到一篇介绍博客文章here。在
安装
安装Pip
$ pip install cluster-pack
从源安装
^{pr2}$先决条件
集群包支持Python≥3.6。在
特点
- 在
提供包含当前虚拟环境或conda环境的所有依赖项的包
在 - 在
存储环境的元数据
在 - 在
通过利用pip的editable installs mode支持“开发中”模式,所有可编辑的需求将一直上传,使本地更改在集群上直接可见
在 - 在
交互式(Jupyter笔记本)模式
在 - 在
提供配置帮助程序以在应用程序中直接使用上载的zip文件
在 - 在
通过传播所有工件从作业启动作业
在
带skein的基本示例
带PySpark的基本示例
- 项目
标签: