当只使用一个GPU时，SLURM作业占用整个节点 - 问答 - Python中文网

当只使用一个GPU时，SLURM作业占用整个节点

2024-09-26 17:39:50 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在向SLURM队列提交多个作业。每个作业使用1个GPU。我们每个节点有4个gpu。但是，一旦一个作业正在运行，它会占用整个节点，留下3个gpu空闲。有什么方法可以避免这种情况，这样我就可以使用一个GPU将多个作业发送到一个节点？在

我的脚本如下：

#SLURM --gres=gpu:1
#SLURM --ntasks-per-node 1
#SLURM -p ghp-queue
myprog.exe

Tags：方法脚本 node 节点 gpu 队列作业情况

1条回答

网友

1楼 · 发布于 2024-09-26 17:39:50

我也无法在不同的gpu上运行多个作业。有帮助的是将OverSubscribe=FORCE添加到slurm.conf中的分区配置中，如下所示：

PartitionName=compute Nodes=ALL ... OverSubscribe=FORCE

在那之后，我可以用 gres=gpu:1运行四个作业，每个作业都使用不同的GPU（第五个作业如预期排队）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章