google ml引擎scaletier未在远程分布式训练中运行

2024-09-30 18:32:48 发布

您现在位置:Python中文网/ 问答频道 /正文

使用远程分布式命令运行tensorflow时: 在指定“缩放层标准\u 1”之后。批处理无法运行。。。。 现在,我只能用简单的单节点“scale tier=BASIC”运行

gcloud ml-engine jobs submit training census_20171005_162623
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job-
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ --
region us-central1 -- --train-files
gs://cloudml-public/census/data/adult.data.csv --eval-files
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000
--eval-steps 100

我得到的错误是

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error.

从日志中:

Retrying after gsutil exception Command '['gsutil', '-q', 'cp',
u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz', u'trainer-0.0.0.tar.gz']' returned non-zero exit status 1.

主人成功地初始化了包“trainer-0.0.0”。焦油.gz" 但是,复制包以便运行时出现问题。 似乎ML工作流无法处理副本中的清理。。。。 副本试图清除作业目录 “gs://dextest/census\u 20171005\u 162623” 再跑之前。你知道吗

错误发生在主拷贝包和 复制副本无法获取要运行的包。你知道吗

I CommandException: No URLs matched: gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz E Retrying after gsutil exception Command '['gsutil', '-q', 'cp', u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz', u'trainer-0.0.0.tar.gz']' returned non-zero exit status 1.
undefined


Tags: gsdatastatus副本traintartiercensus
1条回答
网友
1楼 · 发布于 2024-09-30 18:32:48

从错误消息中可以明显看出(“副本工作进程1以非零状态1退出。终止原因:错误“),你有一些编程错误(语法,未定义等)。你知道吗

检查return code table

Return code       -Meaning       - Cloud ML Engine response

0   Successful completion   Shuts down and releases job resources.
1 - 128 Unrecoverable error Ends the job and logs the error.

找到错误并修复它,然后重试。你知道吗

我建议在云中提交之前在本地运行任务(如果您的配置支持的话)。如果您发现任何错误,您可以在您的本地计算机上轻松修复。你知道吗

相关问题 更多 >