按给定的集群配置Spark

2024-10-03 17:14:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我必须用python向apachespark集群发送一些应用程序。有一个Clustermanager和一些worker节点,其中包含要将应用程序发送到的地址

我的问题是,如何在本地计算机上设置和配置Spark,以便将这些请求和要计算的数据一起发送到集群

我正在Ubuntu 16.xx上工作,已经安装了java和scala。我已经搜索过inet,但是找到的最多的是如何构建集群或者一些旧的建议,这些建议已经过时了


Tags: 数据应用程序节点ubuntu地址计算机集群java
2条回答

我假设您的远程集群正在运行,并且您能够从远程服务器本身在其上提交作业。你需要的是ssh调音。请记住,它不适用于aws

ssh -f user@personal-server.com -L 2000:personal-server.com:7077 -N

阅读更多信息:http://www.revsys.com/writings/quicktips/ssh-tunnel.html

你的问题不清楚。如果数据在本地计算机上,则应首先将数据复制到HDFS文件系统上的集群。Spark可以在3种模式下与YARN一起工作(u使用的是YARN还是MESOS?):集群、客户机和独立。你要找的是客户机模式或集群模式。但是如果您想从本地计算机启动应用程序,请使用客户机模式。如果您拥有SSH访问权限,则可以自由地同时使用这两种权限

最简单的方法是直接在集群上复制代码(如果配置正确),然后使用./spark-submit脚本启动应用程序,提供要用作参数的类。它适用于python脚本和java/scala类(我只使用python,所以我不太清楚)

相关问题 更多 >