2024-09-26 17:39:50 发布
网友
我正在向SLURM队列提交多个作业。每个作业使用1个GPU。我们每个节点有4个gpu。但是,一旦一个作业正在运行,它会占用整个节点,留下3个gpu空闲。有什么方法可以避免这种情况,这样我就可以使用一个GPU将多个作业发送到一个节点?在
我的脚本如下:
#SLURM --gres=gpu:1 #SLURM --ntasks-per-node 1 #SLURM -p ghp-queue myprog.exe
我也无法在不同的gpu上运行多个作业。有帮助的是将OverSubscribe=FORCE添加到slurm.conf中的分区配置中,如下所示:
OverSubscribe=FORCE
slurm.conf
PartitionName=compute Nodes=ALL ... OverSubscribe=FORCE
在那之后,我可以用 gres=gpu:1运行四个作业,每个作业都使用不同的GPU(第五个作业如预期排队)。在
gres=gpu:1
我也无法在不同的gpu上运行多个作业。有帮助的是将
OverSubscribe=FORCE
添加到slurm.conf
中的分区配置中,如下所示:在那之后,我可以用
gres=gpu:1
运行四个作业,每个作业都使用不同的GPU(第五个作业如预期排队)。在相关问题 更多 >
编程相关推荐