为什么在微调时需要冻结批处理规范化层的所有内部状态

1条回答

网友

1楼 · 发布于 2024-10-05 10:36:01

在训练过程中，变化的批次统计数据作为一种正则化机制，可以提高泛化能力。这有助于在训练大量迭代时最小化过度拟合。事实上，使用非常大的批大小can harm generalization，因为批统计中的变化较小，减少了正则化

在对新数据集进行微调时，如果微调示例与原始训练数据集中的示例具有不同的特征，则批次统计信息可能会非常不同。因此，如果批量标准化未冻结，网络将学习新的批量标准化参数（在batch normalization paper中的gamma和beta），这些参数不同于原始训练期间优化的其他网络参数。由于所需的训练时间或微调数据集的小规模，在微调期间重新学习所有其他网络参数通常是不可取的。冻结批处理规范化可避免此问题

编程相关推荐

java FloatingActionButton单击事件不工作
java如何添加Hashmap
java Android应用程序启动时崩溃SecurityException
java重新排列数组的最快方法是什么
java如何延长SOAP头消息时间戳的过期时间
java ClassNotFoundException:com。谷歌。gwt。朱尼特。服务器杜松
使用EasyMock对java类扩展存储过程进行单元测试
java将带有getter和setter的变量添加到现有类中
java如何在JTextArea旁边使用JScrollPane？
java瞬态变量可以以任何方式序列化吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么在微调时需要冻结批处理规范化层的所有内部状态

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >