有Sp的Conda环境

2024-09-29 23:20:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在查看conda环境下的发货,请参考以下Pypark yarn模式的博客URL: https://community.hortonworks.com/articles/58418/running-pyspark-with-conda-env.html

spark submit命令提供如下:

PYSPARK_PYTHON=./NLTK/nltk_env/bin/python spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./NLTK/nltk_env/bin/python \
--conf spark.yarn.appMasterEnv.NLTK_DATA=./ \
--master yarn-cluster \
--archives nltk_env.zip#NLTK,tokenizers.zip#tokenizers,taggers.zip#taggers \
spark_nltk_sample.py

我有以下想法:

1)从博客中了解到,对于--archives文件,例如nltk_env.zip#NLTK,会发生资源本地化,并且会创建一个符号链接:ln -sf "/hadoop/yarn/local/usercache/vagrant/filecache/71/nltk_env.zip" "NLTK"。因此,驱动程序和工人中的PYSPARK_PYTHON都可以通过访问./NLTK/在spark作业期间使用zip文件中的PYTHON环境。在本例中,工人如何实际访问压缩的python(PYSPARK_PYTHON=./NLTK/nltk_env/bin/python)及其关联的conda env,而不实际解压缩和激活conda env?在

2)对于环境变量PYSPARK_PYTHON,它在文档(https://spark.apache.org/docs/latest/configuration.html)中显示,该变量同时适用于驱动程序和工人。如果设置了这个变量,您还需要设置配置--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./NLTK/nltk_env/bin/python?应用程序主配置是否与执行器分开?在


Tags: httpsenvbin环境confhtmlzipconda

热门问题