Pythorch损失值不改变

class FilterLayer(nn.Module): def __init__(self, filter_size, embedding_size, sequence_length, out_channels=128): super(FilterLayer, self).__init__() self.model = nn.Sequential( nn.Conv2d(1, out_channels, (filter_size, embedding_size)), nn.ReLU(inplace=True), nn.MaxPool2d((sequence_length - filter_size + 1, 1), stride=1) ) for m in self.modules(): if isinstance(m, nn.Conv2d): n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels m.weight.data.normal_(0, math.sqrt(2. / n)) def forward(self, x): return self.model(x)

class TextClassifyCnnNet(nn.Module): def __init__(self, embedding_size, sequence_length, num_classes, filter_sizes=[3, 4, 5], out_channels=128): super(TextClassifyCnnNet, self).__init__() self.flat_layer = FlatCnnLayer(embedding_size, sequence_length, filter_sizes=filter_sizes, out_channels=out_channels) self.model = nn.Sequential( self.flat_layer, nn.Linear(out_channels * len(filter_sizes), num_classes) ) def forward(self, x): x = self.model(x) return x def fit(net, data, save_path): if torch.cuda.is_available(): net = net.cuda() for param in list(net.parameters()): print(type(param.data), param.size()) optimizer = optim.Adam(net.parameters(), lr=0.01, weight_decay=0.1) X_train, X_test = data['X_train'], data['X_test'] Y_train, Y_test = data['Y_train'], data['Y_test'] X_valid, Y_valid = data['X_valid'], data['Y_valid'] n_batch = len(X_train) // batch_size for epoch in range(1, n_epochs + 1): # loop over the dataset multiple times net.train() start = 0 end = batch_size for batch_idx in range(1, n_batch + 1): # get the inputs x, y = X_train[start:end], Y_train[start:end] start = end end = start + batch_size # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize predicts = _get_predict(net, x) loss = _get_loss(predicts, y) loss.backward() optimizer.step() if batch_idx % display_step == 0: print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format( epoch, batch_idx * len(x), len(X_train), 100. * batch_idx / (n_batch + 1), loss.data[0])) # print statistics if epoch % display_step == 0 or epoch == 1: net.eval() valid_predicts = _get_predict(net, X_valid) valid_loss = _get_loss(valid_predicts, Y_valid) valid_accuracy = _get_accuracy(valid_predicts, Y_valid) print('\r[%d] loss: %.3f - accuracy: %.2f' % (epoch, valid_loss.data[0], valid_accuracy * 100)) print('\rFinished Training\n') net.eval() test_predicts = _get_predict(net, X_test) test_loss = _get_loss(test_predicts, Y_test).data[0] test_accuracy = _get_accuracy(test_predicts, Y_test) print('Test loss: %.3f - Test accuracy: %.2f' % (test_loss, test_accuracy * 100)) torch.save(net.flat_layer.state_dict(), save_path) def _get_accuracy(predicts, labels): predicts = torch.max(predicts, 1)[1].data[0] return np.mean(predicts == labels) def _get_predict(net, x): # wrap them in Variable inputs = torch.from_numpy(x).float() # convert to cuda tensors if cuda flag is true if torch.cuda.is_available: inputs = inputs.cuda() inputs = Variable(inputs) return net(inputs) def _get_loss(predicts, labels): labels = torch.from_numpy(labels).long() # convert to cuda tensors if cuda flag is true if torch.cuda.is_available: labels = labels.cuda() labels = Variable(labels) return F.cross_entropy(predicts, labels)

2条回答

网友

1楼 · 编辑于 2024-05-20 02:03:26

我已经看到在您的原始代码中，weight_decayterm被设置为0.1。weight_decay用于正则化网络参数。这个术语可能太强了，所以正则化太多了。{cd1>尝试减少^的值。在

用于计算机视觉任务中的卷积神经网络。weight_decay项通常设置为5e-4或{}。我不熟悉文本分类。这些值可能会对你开箱即用，或者你必须通过反复试验来调整它。在

如果对你有用，请告诉我。在

网友

2楼 · 编辑于 2024-05-20 02:03:26

我意识到Adam优化器中的L2_丢失使loss值保持不变（我还没有在其他优化器中尝试过）。当我删除L2_丢失时，它会起作用：

# optimizer = optim.Adam(net.parameters(), lr=0.01, weight_decay=0.1)
optimizer = optim.Adam(model.parameters(), lr=0.001)

===更新（请参阅上面的答案了解更多详细信息！）===

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章