KERA中批量标准化的输出是否取决于历元数？

def HappyModel3(input_shape): X_input = Input(input_shape, name='input_layer') X = BatchNormalization(axis = 1, name = 'batchnorm_layer')(X_input) X = Dense(1, activation='sigmoid', name='sigmoid_layer')(X) model = Model(inputs = X_input, outputs = X, name='HappyModel3') return model

X_train=np.array([[1,1,-1],[2,1,1]]) Y_train=np.array([0,1]) happyModel_1=HappyModel3(X_train[0].shape) happyModel_1.compile(optimizer=keras.optimizers.RMSprop(), loss=keras.losses.mean_squared_error) happyModel_1.fit(x = X_train, y = Y_train, epochs = 1 , batch_size = 2, verbose=0 )

for i in range(0, len(happyModel_1.layers)): tmp_model = Model(happyModel_1.layers[0].input, happyModel_1.layers[i].output) tmp_output = tmp_model.predict(X_train) if i in (0,1) : print(happyModel_1.layers[i].name) print(tmp_output.shape) print(tmp_output) print('\n')

happyModel_2=HappyModel3(X_train[0].shape) happyModel_2.compile(optimizer=keras.optimizers.RMSprop(), loss=keras.losses.mean_squared_error) happyModel_2.fit(x = X_train, y = Y_train, epochs = 1000 , batch_size = 2, verbose=0 )

for i in range(0, len(happyModel_2.layers)): tmp_model = Model(happyModel_2.layers[0].input, happyModel_2.layers[i].output) tmp_output = tmp_model.predict(X_train) if i in (0,1) : print(happyModel_2.layers[i].name) print(tmp_output.shape) print(tmp_output) print('\n')

1条回答

网友

1楼 · 发布于 2024-09-28 01:33:37

关于^{}的keras文档回答了您的问题：

Importantly, batch normalization works differently during training and during inference.

在培训期间，即调用model.fit()时会发生什么

During training [...], the layer normalizes its output using the mean and standard deviation of the current batch of inputs.

但是，在推理过程中会发生什么，例如在您的示例中调用mode.predict()时

During inference [...], the layer normalizes its output using a moving average of the mean and standard deviation of the batches it has seen during training. That is to say, it returns (batch - self.moving_mean) / (self.moving_var + epsilon) * gamma + beta.
self.moving_mean and self.moving_var are non-trainable variables that are updated each time the layer in called in training mode [...].

重要的是要理解，批次标准化将通过查看单个批次的统计信息，并通过从单个批次统计信息中计算的运行平均值，在内部更新moving_mean和moving_variance参数，从而在培训期间计算整个培训数据的统计信息（均值和方差）。因此，它们不受反向传播的影响。理想情况下，在您的模型看到了足够多的培训示例（或进行了足够多的培训）之后，moving_mean和moving_variance将对应于整个培训集的统计信息。然后在推理过程中使用这两个参数来规范化测试示例。训练开始时，这两个参数将初始化为0和1。进一步的批处理规范还有两个参数，称为gamma和beta，它们将由优化器更新，因此取决于您的损失

本质上，yes，推理过程中批处理规范化的输出取决于训练模型的历元数。首先，由于均值和方差的移动平均值发生变化，其次是由于学习到的参数gamma和beta

为了更深入地理解批处理规范化是如何工作的以及为什么需要它，请看一下original publication

相关问题更多 >

编程相关推荐

热门问题

热门文章