我必须使用SSH在计算集群中的多台机器上运行脚本。但是在运行脚本之前,我必须使用ssh
登录到集群中的一个节点,然后使用nvidia-smi
检查哪个GPU是空闲的(因为目前没有作业调度程序)。每个节点都有几个gpu。所以我通常通过发出ssh gpu1
…后跟nvidia-smi
来访问gpu,它只输出一个gpu列表和每个gpu的进程和利用率。在
我需要把这一切自动化。也就是说,假设我们有4个gpu:gpu1…gpu4。
我希望能够通过ssh连接到其中的每一个,检查它们的使用情况,然后在免费的gpu上运行一个python脚本run_test.py -arg1
。在
如何编写一个python脚本来完成所有这些任务呢?在
我是Python新手,需要帮助。。。在
目前没有回答
相关问题 更多 >
编程相关推荐