关于卷积层形状计算的困惑

2024-10-02 02:44:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我是这个论坛的新手,我已经开始学习CNN的理论。 这可能是一个愚蠢的问题,但我对CNN输出形状的计算感到困惑。 我正在学习一门关于Udacity的课程,在其中一个教程中,他们提供了这个CNN架构

import torch.nn as nn
import torch.nn.functional as F

# define the CNN architecture
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # convolutional layer (sees 32x32x3 image tensor)
        self.conv1 = nn.Conv2d(3, 16, 3, padding=1)
        # convolutional layer (sees 16x16x16 tensor)
        self.conv2 = nn.Conv2d(16, 32, 3, padding=1)
        # convolutional layer (sees 8x8x32 tensor)
        self.conv3 = nn.Conv2d(32, 64, 3, padding=1)
        # max pooling layer
        self.pool = nn.MaxPool2d(2, 2)
        # linear layer (64 * 4 * 4 -> 500)
        self.fc1 = nn.Linear(64 * 4 * 4, 500)
        # linear layer (500 -> 10)
        self.fc2 = nn.Linear(500, 10)
        # dropout layer (p=0.25)
        self.dropout = nn.Dropout(0.25)

你能帮助理解他们计算CNN层输出的方式吗?(图像的起始形状为32x32x3) 更具体地说,他们最终是如何做到这一点的:

# linear layer (64 * 4 * 4 -> 500)
self.fc1 = nn.Linear(64 * 4 * 4, 500)

非常感谢


Tags: importselflayerasnntorchcnnlinear
1条回答
网友
1楼 · 发布于 2024-10-02 02:44:07

它忽略了前向传递的定义,可以猜测在每个conv层之后有一个2x2池。因此,池意味着每次都要进行子采样(参见注释),32x32图像在conv1(+2x2池)之后变成16x16,在conv2(+2x2池)之后变成8x8,在conv3(+2x2池)之后变成4x4。因为conv3有64个过滤器,所以它输出64个大小为4x4的特征映射。然后fc1将这个张量映射到一个大小为500的完全连接层。这正是直线所定义的

self.fc1 = nn.Linear(64 * 4 * 4, 500)

相关问题 更多 >

    热门问题