如何访问pyspark脚本中的SparkContext

----> sc = SparkContext("local", 1) ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local) created by <module> at /Library/Python/2.7/site-packages/IPython/utils/py3compat.py:204

2条回答

网友

1楼 · 编辑于 2024-06-25 06:54:55

wordcount的独立python脚本：使用contextmanager编写可重用的spark上下文

"""SimpleApp.py"""
from contextlib import contextmanager
from pyspark import SparkContext
from pyspark import SparkConf


SPARK_MASTER='local'
SPARK_APP_NAME='Word Count'
SPARK_EXECUTOR_MEMORY='200m'

@contextmanager
def spark_manager():
    conf = SparkConf().setMaster(SPARK_MASTER) \
                      .setAppName(SPARK_APP_NAME) \
                      .set("spark.executor.memory", SPARK_EXECUTOR_MEMORY)
    spark_context = SparkContext(conf=conf)

    try:
        yield spark_context
    finally:
        spark_context.stop()

with spark_manager() as context:
    File = "/home/ramisetty/sparkex/README.md"  # Should be some file on your system
    textFileRDD = context.textFile(File)
    wordCounts = textFileRDD.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
    wordCounts.saveAsTextFile("output")

print "WordCount - Done"

启动：

/bin/spark-submit SimpleApp.py

网友
2楼 · 编辑于 2024-06-25 06:54:55

从pyspark.context导入SparkContext
然后在SparkContext上调用静态方法：
sc = SparkContext.getOrCreate()

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何访问pyspark脚本中的SparkContext

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >