在Intellij中运行pyspark代码

2024-10-06 12:40:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经按照以下步骤在intellij中设置pyspark,从这个问题开始:

Write and run pyspark in IntelliJ IDEA

下面是尝试运行的简单代码:

#!/usr/bin/env python
from pyspark import *

def p(msg): print("%s\n" %repr(msg))

import numpy as np
a = np.array([[1,2,3], [4,5,6]])
p(a)

import os
sc = SparkContext("local","ptest",conf=SparkConf().setAppName("x"))

ardd = sc.parallelize(a)
p(ardd.collect())

下面是提交代码的结果

^{pr2}$

然而,我真的不明白这是如何实现的:为了在Spark中运行,代码需要打包并通过spark-submit提交。在

所以我怀疑另一个问题是否真的解决了通过Intellij向spark提交pyspark代码的问题。在

有没有办法将pyspark代码提交给pyspark?事实上是的

  spark-submit myPysparkCode.py

pyspark可执行文件本身已被弃用,因为Spark 1.0。有人用这个吗?在


Tags: andrun代码importnp步骤msgspark
1条回答
网友
1楼 · 发布于 2024-10-06 12:40:32

在我的例子中,来自其他Q&AWrite and run pyspark in IntelliJ IDEA的变量设置覆盖了大多数必需的设置,但不是全部。我试了很多次。在

仅在添加:

  PYSPARK_SUBMIT_ARGS =  pyspark-shell

run configuration来说,pyspark终于安静下来并成功了。在

相关问题 更多 >