无效的设备序号,CUDA/TORCH

2024-10-03 17:21:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我在Ubuntu16.04中运行脚本时遇到这个错误。请原谅我,我是Python新手, 我已经检查了互联网上已经可用的选项,但我无法修复它。在

 RuntimeError: cuda runtime error (10) : invalid device ordinal at torch/csrc/cuda/Module.cpp:32

我当前正在运行此文件。在

^{pr2}$

我怀疑这个文件和弹出的错误有关

Title = "TOML Example"

[general]
usecudnn = true
usecudnnbenchmark = true
gpuid = 0
loadpretrainedmodel = true
pretrainedmodelpath = "trainedmodel.pt"
savemodel = true
modelsavepath = "savedmodel.pt"

[input]
batchsize = 18
numworkers = 18
shuffle = true

[model]
type = "LSTM"
inputdim = 256 
hiddendim = 256
numclasses = 500
numlstms = 2

[training]
train = true
epochs = 15
startepoch = 10
statsfrequency = 1000
dataset = "/udisk/pszts-ssd/AV-ASR-data/BBC_Oxford/lipread_mp4"
learningrate = 0.003
momentum = 0.9
weightdecay = 0.0001

[validation]
validate = true
dataset = "/udisk/pszts-ssd/AV-ASR-data/BBC_Oxford/lipread_mp4"
saveaccuracy = true
accuracyfilelocation = "accuracy.txt"

错误主要在gpuid行中,因为我终于到达了。在


Tags: 文件pttruedata错误asrdatasetbbc
3条回答

如果预先训练的模型在不同数量的Cuda设备上训练,则可能会出现该错误。例如,在训练模型时,您使用了3个Cuda设备,而现在您正在一个只有一个Cuda设备的设备上加载相同的训练模型。在

预训练的权重可能映射到不同的gpuid。在

#WAS
model.load_state_dict(torch.load(final_model_file, map_location={'cuda:0':'cuda:1'}))
#IS
model.load_state_dict(torch.load(final_model_file, map_location={'cuda:0':'cuda:0'}))

试着这么做

import torch
print(torch.cuda.is_available())

如果输出为False,则表示PyTorch没有检测到GPU。 我也遇到了同样的问题,重新安装Pythorch对我很有用。 您可能还想看看这个https://github.com/pytorch/pytorch/issues/6098。在

相关问题 更多 >