我可以从windows驱动程序机器上的pyspark向运行在linux上的集群提交任务吗?

2024-06-24 11:39:31 发布

您现在位置:Python中文网/ 问答频道 /正文

以下是机器设置(带主机名):

  • 运行驱动程序应用程序的windows工作站(My dev box) 使用pyspark接口(BRL-VM212)
  • RHEL7主节点 (BRLHLTCBA01)
  • 一个RHEL 7工作节点(BRLHLHTCS01)

它们都有相同版本的java、scala、python、spark。RHEL7机器使用java、scala、python和spark安装,这些安装与发行版提供的安装是分开的,并且安装在网络共享位置,因此它们的设置是相同的。不同的是windows驱动程序机器。在

我在独立模式下使用spark。在

但是,python虚拟env在驱动程序机器和主/工作节点上的位置是不同的(正如您所预期的)。在

当我试图对一个列表运行一个简单的和时,我得到了这个错误。在

16/04/08 11:07:44 WARN TaskSetManager: Lost task 5.0 in stage 0.0 (TID 5, brlhlhtcs01.bluecrest.local): java.io.IOExcept
ion: Cannot run program "C:\Python35_virtuals\GeneralDev\Scripts\python.exe": error=2, No such file or directory

可以说,这个文件存在于驱动程序计算机上,但不存在于worker上。在

全迹

^{pr2}$

工作节点似乎正在尝试使用python exe,该exe位于与驱动程序节点相同的本地路径上。这是预期的吗?即使我把虚拟环境放在工作节点和驱动节点都能看到的共享上,它们仍然在运行不同的操作系统?在

我试着设置spark.driver.host驱动程序主机名的值(BRL-VM212)。所有的机器都在同一个内部网络上(同样的数据中心)。在

谢谢!在


Tags: 机器应用程序节点mywindows驱动程序javaexe