设置spark上下文配置优先级sparksubmit

#!/bin/bash export SPARK_DIST_CLASSPATH=$(hadoop classpath):$HADOOP_HOME/share/hadoop/* export _JAVA_OPTIONS="-Xms2g -Xmx8g -XX:MaxPermSize=8g" spark-submit \ --master local \ --conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=file:///job/log4j.properties" \ --conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:///job/log4j.properties"\ --files "/job/log4j.properties" \ main.py --train_path $1 --test_path $2

1条回答

网友

1楼 · 发布于 2024-10-01 22:40:07

我设法解决了它。停止SparkContext并检索通过spark-submit设置的所有参数，然后创建一个新上下文。步骤如下：

初始化SparkContext
通过sc.getConf()检索所有以前设置的配置，并使用sc.stop()停止以前的上下文
使用SparkConf().setIfMissing()设置所有剩余配置，并使用新配置SparkContext(conf=conf)创建新上下文

最后一步允许通过spark-submit对配置集进行优先级排序。这样，通过此方法只设置以前未设置的参数。在代码中，这将是：

config = my_config_dict
sc = SparkContext()
sc.stop()
conf = sc.getConf()
for option in my_config_dict.keys():
    conf.setIfMissing(option, my_config_dict[option])
sc = SparkContext(conf=conf)

相关问题更多 >

编程相关推荐

热门问题

热门文章