Pytorch:RuntimeError:reduce未能同步：CudaErrorRassert:deviceside断言已触发

C:/w/1/s/windows/pytorch/aten/src/THCUNN/ClassNLLCriterion.cu:106: block: [0,0,0], thread: [6,0,0] Assertion `t >= 0 && t < n_classes` failed. Traceback (most recent call last): File "C:\Program Files\JetBrains\PyCharm Community Edition 2019.1.1\helpers\pydev\pydevd.py", line 1741, in <module> main() File "C:\Program Files\JetBrains\PyCharm Community Edition 2019.1.1\helpers\pydev\pydevd.py", line 1735, in main globals = debugger.run(setup['file'], None, None, is_module) File "C:\Program Files\JetBrains\PyCharm Community Edition 2019.1.1\helpers\pydev\pydevd.py", line 1135, in run pydev_imports.execfile(file, globals, locals) # execute the script File "C:\Program Files\JetBrains\PyCharm Community Edition 2019.1.1\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile exec(compile(contents+"\n", file, 'exec'), glob, loc) File "C:/Noam/Code/vision_course/hopenet/deep-head-pose/code/original_code_augmented/train_hopenet_with_validation_holdout.py", line 187, in <module> loss_reg_yaw = reg_criterion(yaw_predicted, label_yaw_cont) File "C:\Noam\Code\vision_course\hopenet\venv\lib\site-packages\torch\nn\modules\module.py", line 541, in __call__ result = self.forward(*input, **kwargs) File "C:\Noam\Code\vision_course\hopenet\venv\lib\site-packages\torch\nn\modules\loss.py", line 431, in forward return F.mse_loss(input, target, reduction=self.reduction) File "C:\Noam\Code\vision_course\hopenet\venv\lib\site-packages\torch\nn\functional.py", line 2204, in mse_loss ret = torch._C._nn.mse_loss(expanded_input, expanded_target, _Reduction.get_enum(reduction)) RuntimeError: reduce failed to synchronize: cudaErrorAssert: device-side assert triggered

1条回答

网友

1楼 · 发布于 2024-09-28 05:22:22

这种错误通常发生在使用NLLLoss或CrossEntropyLoss时，以及数据集具有负标签（或标签大于类数）时。这也是您得到的断言t >= 0 && t < n_classes失败的确切错误

这不会发生在MSELoss上，但OP提到某个地方有一个CrossEntropyLoss，因此发生了错误（程序在另一行异步崩溃）。解决方案是清理数据集并确保满足t >= 0 && t < n_classes（其中t表示标签）

另外，如果您使用NLLLoss或BCELoss，请确保您的网络输出在0到1的范围内（然后分别需要softmax或sigmoid激活）。注意CrossEntropyLoss或BCEWithLogitsLoss不需要这样做，因为它们在loss函数中实现了激活函数。（感谢@PouyaB指出）

相关问题更多 >

编程相关推荐

热门问题

热门文章