我试图使用网络相对于其输入的梯度作为损失函数的一部分。但是,每当我尝试计算它时,训练都会继续,但权重不会更新
import torch
import torch.optim as optim
import torch.autograd as autograd
ic = torch.rand((25, 3))
ic = torch.tensor(ic, requires_grad=True)
optimizer = optim.RMSprop([ic], lr=1e-2)
for itr in range(1, 50):
optimizer.zero_grad()
sol = torch.tanh(.5*torch.stack(100*[ic])) # simplified for minimal working example
dx = sol[-1, :, 0]
dxdxy, = autograd.grad(dx,
inputs=ic,
grad_outputs = torch.ones(ic.shape[0]), # batchwise
retain_graph=True
)
dxdxy = torch.tensor(dxdxy, requires_grad=True)
loss = torch.sum(dxdxy)
loss.backward()
optimizer.step()
if itr % 5 == 0:
print(loss)
我做错了什么
当您运行
autograd.grad
而不将标志create_graph
设置为True
时,您将无法获得连接到计算图的输出,这意味着您将无法进一步优化w.r.tic
(并获得您希望在此处实现的高阶导数)。 从torch.autograd.grad
的文档字符串:在这里尝试使用
dxdxy = torch.tensor(dxdxy, requires_grad=True)
不会有帮助,因为连接到ic
的计算图已经丢失(因为create_graph
是False
),您所做的只是创建一个新的计算图,其中dxdxy
是一个叶节点请参阅下面附带的解决方案(请注意,当您创建
ic
时,可以设置requires_grad=True
,因此第二行是冗余的(这不是逻辑问题,只是更长的代码):相关问题 更多 >
编程相关推荐