将pyspark连接到远程集群

PysparkGatewa的Python项目详细描述


Pypsark网关是一个库,可以无缝连接到远程Spark集群。

快速启动

在要连接到的远程Spark群集和本地计算机上安装PysparkGateway包。

pip install pysparkgateway

启动集群上的pyspark网关服务器。

pyspark-gateway start

pyspark网关通过3个端口进行通信,250002500125002。目前,客户机只支持连接到本地主机上的这些端口,因此您需要对它们进行隧道。

ssh myuser@foo.bar.cluster.com -L 25000:localhost:25000 -L 25001:localhost:25001 -L 25002:localhost:25002

现在你可以连接了。要记住的主要事情是pyspark网关导入需要在任何其他导入之前到达。pypsark网关需要修补您的本地pyspark才能正常工作。

本地python连接到远程集群的方式是通过自定义py4j网关。pyspark网关将自动创建和配置,您只需将其传递到SparkContext选项。

另外,要使所有pyspark函数都能工作,spark.io.encryption.enabled需要设置为true

# This import comes first!
from pyspark_gateway import PysparkGateway
pg = PysparkGateway()

from pyspark import SparkContext, SparkConf

conf = conf.set('spark.io.encryption.enabled', 'true')
sc = SparkContext(gateway=pg.gateway, conf=conf)

现在,您有一个工作的spark上下文连接到远程集群。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么这个代码段不会产生结果?   在OSGi下使用SnakeYaml的java?   java可扩展列表视图能否移动自定义图标(指示器)?   java如何将文件从html保存为pdf   java如何将字符串转换为长字符串   java使用来自无限输入的原始数据并在设备上播放   通过spring数据使用复合PK集合的java查询(Hibernate JPA)   使用Sax解析器通过按钮单击java解析数据所有按钮返回相同的数据,而不是独占数据   JavaSWT:将shell切换到全屏模式   如果IsRechable抛出Java中的IOException,那么应该采取什么适当的操作?为什么?   java重定向到另一个带有@RequestBody的页面   密码学可以组织起来。弹跳船舱。openssl。PEMReader阅读java。安全私钥?   java MYSQL列中的空值要求为通配符   文件io如何将res文件夹链接到java项目