为什么PyTorch模型在模型内部采用多个图像大小？

3条回答

网友

1楼 · 编辑于 2024-10-02 18:20:46

它可能适用于单个图像，但不适用于批处理图像的原因是，对于批处理图像，数据集将尝试在批处理中调用torch.stack。这将不起作用，因为尽管通道尺寸可能对齐（灰度为1，颜色为RGB），但图像的高度和宽度尺寸不会正确对齐！这已在上面讨论过

解决此问题的一种方法是找到数据集中任何图像的最大大小。然后，您可以调整每个图像的大小为该大小！正确的方法可能是填充图像，同时保存每个图像的真实大小，以便以后可以对其进行重塑。下面是一个例子：

从数据集返回的对象：

size = [1024, 1024]

return {'image': image,
        'size': size}

使用数据的位置：

image = batch['image']
single_image = image[batch_index, :size[0], :size[1]]

现在，返回了一批图像，但您可以按原始大小提取它们。如果需要同时通过网络运行整个批处理，您可能不想这样做，但这是值得考虑的

网友

2楼 · 编辑于 2024-10-02 18:20:46

PyTorch有所谓的Dynamic Computational Graph（other explanation）

它允许神经网络的图形在训练或推理期间动态地适应其输入大小，从一个输入到下一个输入。这是您在第一个示例中观察到的：将图像作为大小为[1, 3, 384, 320]的张量提供给您的模型，然后将另一个图像作为大小为[1, 3, 384, 1024]的张量，依此类推，这是完全正确的，因为对于每个输入，您的模型都将动态调整

但是，如果您的输入实际上是输入的集合（一个批），那就另当别论了。对于Pytork，一个批次将被转换为具有一个额外维度的单个张量输入。例如，如果您提供一个n个图像的列表，每个图像的大小为[1, 3, 384, 320]，PyTorch将堆叠它们，以便您的模型有一个[n, 1, 3, 384, 320]形状的张量输入

这种“堆叠”只能发生在相同形状的图像之间。为了提供比以前的答案更“直观”的解释，这种堆叠操作不能在不同形状的图像之间进行，因为网络无法“猜测”不同图像在一批中应该如何“对齐”，如果它们的大小不同的话

无论是在培训或测试期间发生，如果您使用不同大小的图像创建了一批图像，PyTorch将拒绝您的输入

通常会使用几种解决方案：按原样进行重塑，添加填充（通常在图像的边框上添加小值或空值），以将较小的图像扩展到最大图像的大小，等等

网友
3楼 · 编辑于 2024-10-02 18:20:46

网络可以处理不同大小图像的原因有两个：

最简单的原因是，在网络的输入中有一个插值层，它将输入的大小调整为网络期望的大小
当您具有完全卷积网络时，可以向模型插入动态大小的输入，这意味着网络中的所有操作都不依赖于输入空间大小。例如，如果所有层都是卷积Relu和池，则网络可以处理您将插入的任何大小。因此，您可以插入一个大小为[N，3384320]或[N，37041024]的批，网络将同时运行这两个批

你认为不能用不同的大小进行推理的原因是因为你不能用多个不同大小的张量。图像的张量必须是一个固定的大小，（N，C，H，W），不能有大小为（H'，W'）的张量和另一个大小为（H，W）的张量，因为它们必须是具有特定大小的相同张量

但您可以针对每批产品使用不同的大小进行训练/推断。例如，第一批图像可以是（N，C，H，W），下一批图像可以是（N，C，H'，W'）

相关问题更多 >

编程相关推荐

热门问题

热门文章