Pytorch中NLLLoss损失函数的C类是什么？

# Some random training data input = torch.randn(5, requires_grad=True) print(input) # tensor([-1.3533, -1.3074, -1.7906, 0.3113, 0.7982], requires_grad=True) # Build my NN (here it's just a LogSoftmax) m = nn.LogSoftmax(dim=0) # Train my NN with the data output = m(input) print(output) # tensor([-2.8079, -2.7619, -3.2451, -1.1432, -0.6564], grad_fn=<LogSoftmaxBackward>) loss = nn.NLLLoss() print(loss(output, torch.tensor([1, 0, 0])))

m = nn.LogSoftmax(dim=1) loss = nn.NLLLoss() input = torch.randn(3, 5, requires_grad=True) train = torch.tensor([1, 0, 4]) print('input', input) # input tensor([[...],[...],[...]], requires_grad=True) output = m(input) print('train', output, train) # tensor([[...],[...],[...]],grad_fn=<LogSoftmaxBackward>) tensor([1, 0, 4]) x = loss(output, train)

2条回答

网友
1楼 · 编辑于 2024-09-26 18:01:39

我同意你所说的nn.NLLLoss()的文档远远不够理想，但我认为我们可以在这里澄清你的问题，首先，澄清“类”在机器学习环境中经常被用作“类别”的同义词
因此，当PyTorch谈论C类时，它实际上指的是你试图训练你的网络的不同类别的数量。因此，在分类神经网络试图在“猫”和“狗”之间分类的经典示例中，C = 2，因为它是猫或狗
特别是对于这个分类问题，它还认为我们在类别数组上只有一个真值（图片不能同时描绘猫和狗，但总是只描绘其中一个），这就是为什么我们可以通过索引方便地指示图像的相应类别（比如说^{）表示猫和狗）。现在，我们可以简单地将网络输出与我们想要的类别进行比较
但是，为了实现这一点，我们还需要弄清楚这些损失值（在我们的网络输出中）指的是什么，因为我们的网络通常会通过softmax对不同的输出神经元进行预测，这意味着我们通常不止一个值。幸运的是，PyTorch的nn.NLLLoss会自动为您实现这一点
上面的LogSoftmax示例实际上只生成一个输出值，这是本示例的关键情况。这样，您基本上只知道某个东西是否存在，但在分类示例中使用它没有多大意义，在回归案例中更是如此（但这需要一个完全不同的损失函数开始）
最后，但并非最不重要的是，你也应该考虑这样的事实，我们通常有2D张量作为输入，因为批量（多个样本的同时计算）通常被认为是匹配性能的必要步骤。即使选择批量大小为1，这仍然要求输入的维度为(batch_size, input_dimensions)，因此输出张量的形状为(batch_size, number_of_categories)
这解释了为什么您在网上找到的大多数示例都是在dim=1上执行LogSoftmax()，因为这是“分布轴”，而不是批处理轴（即dim=0）
如果您只是想解决问题，最简单的方法是将随机张量扩展一个额外的维度（torch.randn([1, 5], requires_grad=True)），然后只比较输出张量中的一个值（print(loss(output, torch.tensor([1]))）

网友
2楼 · 编辑于 2024-09-26 18:01:39

基本上，您缺少了batch的概念
长话短说，丢失的每个输入（以及通过网络的输入）都需要batch维度（即使用了多少个样本）
逐步分解：
您的示例与文档
每一步都将是每一步的比较，以使其更清晰（顶部的文档，下面的示例）
投入
input = torch.randn(3, 5, requires_grad=True) input = torch.randn(5, requires_grad=True)
在第一种情况下（文档），创建带有5特征的输入，并使用3样本。在您的情况下，只有batch维度（5样本），您没有所需的功能。如果您想要一个具有5功能的示例，您应该执行以下操作：
input = torch.randn(5, requires_grad=True)
LogSoftmax
LogSoftmax是跨功能维度完成的，您是跨批完成的
m=nn.LogSoftmax（尺寸=1）#适用于特征 m=nn.LogSoftmax（dim=0）#批量应用
由于样本彼此独立，因此此操作通常没有意义
目标
因为这是多类分类，向量中的每个元素代表一个样本，所以可以传递任意数量的数字（只要它小于特征的数量，在文档示例中它是5，因此[0-4]就可以了）
train = torch.tensor([1, 0, 4]) train = torch.tensor([1, 0, 0])
我想，你也希望传递一个热向量作为目标。PyTorch不是这样工作的，因为它的内存效率很低（既然您可以精确定位类，那么为什么要将所有内容存储为一个热编码，在您的情况下，它应该是^{）
只有神经网络的输出是一个热编码，以便通过所有输出节点反向传播误差，目标不需要
决赛
您不应该使用torch.nn.LogSoftmax来执行此任务。只需使用torch.nn.Linear作为最后一层，并对目标使用torch.nn.CrossEntropyLoss

您的示例与文档

投入

LogSoftmax

目标

决赛

相关问题更多 >

编程相关推荐

热门问题

热门文章