在PySpark中未加载Elephas:没有命名的模块elephas.spark_模块

from elephas.utils.rdd_utils import to_simple_rdd rdd = to_simple_rdd(sc, x_train, y_train) from elephas.spark_model import SparkModel from elephas import optimizers as elephas_optimizers sgd = elephas_optimizers.SGD() spark_model = SparkModel(sc, model, optimizer=sgd, frequency='epoch', mode='asynchronous', num_workers=2) spark_model.train(rdd, nb_epoch=epochs, batch_size=batch_size, verbose=1, validation_split=0.1)

2条回答

网友

1楼 · 编辑于 2024-09-28 19:19:33

我找到了一个解决方案，如何正确地将虚拟环境加载到主机和所有从工作机：

virtualenv venv  relocatable
cd venv 
zip -qr ../venv.zip *

PYSPARK_PYTHON=./SP/bin/python spark-submit  master yarn  deploy-mode cluster  conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./SP/bin/python  driver-memory 4G  archives venv.zip#SP filename.py

有关GitHub问题的更多详细信息： https://github.com/maxpumperla/elephas/issues/80#issuecomment-371073492

网友

2楼 · 编辑于 2024-09-28 19:19:33

您应该将elephas库作为参数添加到spark-submit命令中。在

引用官方指南：

For Python, you can use the py-files argument of spark-submit to add .py, .zip or .egg files to be distributed with your application. If you depend on multiple Python files we recommend packaging them into a .zip or .egg.

Official guide

相关问题更多 >

编程相关推荐

热门问题

热门文章