我在SLURM集群上保留了一些节点,并希望在这些节点上运行python脚本。
在一个节点(服务器)上,python脚本应该用作业填充队列并将这些作业分派给客户机。
大多数情况下,这是很好的工作,但偶尔脚本暂停。
当使用Ctrl+C时,结果表明,在这种情况下,一个(或多个)节点似乎卡在<Finalize object, dead>
中:
^Csrun: interrupt (one more within 1 sec to abort)
srun: task 30: running
srun: tasks 0-29,31-39: exited
^Csrun: sending Ctrl-C to job 1075185.14
Exception keyboardInterrupt: KeyboardInterrupt() in <Finalize object, dead> ignored
srun: Job step aborted: Waiting up to 2 seconds for job step to finish.
slurmd[cluster-112]: *** STEP 1075185.14 KILLED AT 2014-04-03T09:11:23 WITH SIGNAL 9 ***
我不知道是什么原因。也许,它看起来和垃圾回收器有关。在
这是我运行的脚本:
^{pr2}$
目前没有回答
相关问题 更多 >
编程相关推荐