我是这个论坛的新手,我已经开始学习CNN的理论。 这可能是一个愚蠢的问题,但我对CNN输出形状的计算感到困惑。 我正在学习一门关于Udacity的课程,在其中一个教程中,他们提供了这个CNN架构
import torch.nn as nn
import torch.nn.functional as F
# define the CNN architecture
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
# convolutional layer (sees 32x32x3 image tensor)
self.conv1 = nn.Conv2d(3, 16, 3, padding=1)
# convolutional layer (sees 16x16x16 tensor)
self.conv2 = nn.Conv2d(16, 32, 3, padding=1)
# convolutional layer (sees 8x8x32 tensor)
self.conv3 = nn.Conv2d(32, 64, 3, padding=1)
# max pooling layer
self.pool = nn.MaxPool2d(2, 2)
# linear layer (64 * 4 * 4 -> 500)
self.fc1 = nn.Linear(64 * 4 * 4, 500)
# linear layer (500 -> 10)
self.fc2 = nn.Linear(500, 10)
# dropout layer (p=0.25)
self.dropout = nn.Dropout(0.25)
你能帮助理解他们计算CNN层输出的方式吗?(图像的起始形状为32x32x3) 更具体地说,他们最终是如何做到这一点的:
# linear layer (64 * 4 * 4 -> 500)
self.fc1 = nn.Linear(64 * 4 * 4, 500)
非常感谢
它忽略了前向传递的定义,可以猜测在每个
conv
层之后有一个2x2池。因此,池意味着每次都要进行子采样(参见注释),32x32图像在conv1
(+2x2池)之后变成16x16,在conv2
(+2x2池)之后变成8x8,在conv3
(+2x2池)之后变成4x4。因为conv3
有64个过滤器,所以它输出64个大小为4x4的特征映射。然后fc1
将这个张量映射到一个大小为500的完全连接层。这正是直线所定义的相关问题 更多 >
编程相关推荐