我正在查看conda环境下的发货,请参考以下Pypark yarn模式的博客URL: https://community.hortonworks.com/articles/58418/running-pyspark-with-conda-env.html
spark submit命令提供如下:
PYSPARK_PYTHON=./NLTK/nltk_env/bin/python spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./NLTK/nltk_env/bin/python \
--conf spark.yarn.appMasterEnv.NLTK_DATA=./ \
--master yarn-cluster \
--archives nltk_env.zip#NLTK,tokenizers.zip#tokenizers,taggers.zip#taggers \
spark_nltk_sample.py
我有以下想法:
1)从博客中了解到,对于--archives
文件,例如nltk_env.zip#NLTK
,会发生资源本地化,并且会创建一个符号链接:ln -sf "/hadoop/yarn/local/usercache/vagrant/filecache/71/nltk_env.zip" "NLTK"
。因此,驱动程序和工人中的PYSPARK_PYTHON都可以通过访问./NLTK/
在spark作业期间使用zip文件中的PYTHON环境。在本例中,工人如何实际访问压缩的python(PYSPARK_PYTHON=./NLTK/nltk_env/bin/python
)及其关联的conda env,而不实际解压缩和激活conda env?在
2)对于环境变量PYSPARK_PYTHON,它在文档(https://spark.apache.org/docs/latest/configuration.html)中显示,该变量同时适用于驱动程序和工人。如果设置了这个变量,您还需要设置配置--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./NLTK/nltk_env/bin/python
?应用程序主配置是否与执行器分开?在
目前没有回答
相关问题 更多 >
编程相关推荐