我想实现一个自动编码器,报纸上说它使用了adam优化器,初始学习率为。。。重量衰减设置为
我读到有几种类型的重量衰减,如果没有给出确切的重量衰减类型,将使用什么标准
我还看到(https://www.pyimagesearch.com/2019/07/22/keras-learning-rate-schedules-and-decay/)在Keras中实施了标准衰变计划,但在Keras文档中找不到。可以使用此重量衰减时间表吗
所示的标准衰减时间表如下所示:
opt = SGD(lr=1e-2, decay=1e-2/epochs)
Tags:
我想你可能把学习率衰退和体重衰退混淆了,它们都是不同的术语。你分享的链接是关于学习率下降的,而不是体重下降的
权重衰减是添加到梯度下降公式中的一个附加项,用于帮助调整网络权重,并使其指数衰减为零(从而防止过度拟合)。如果你翻阅文献,你会听到像
L1 regularizer/L2 regularizer
这样的术语,这些就是我们正在谈论的重量衰减另一方面,学习率是优化公式(梯度下降)中的一个常数项(alpha),它决定了我们将朝着梯度迈出多大的一步。它主要决定算法的收敛速度,如果我们采取的步骤(学习速度)太大,那么我们可能会偏离最优解,如果我们的步骤(学习速度)太小,我们需要很长时间才能达到目标,或者我们可能根本无法达到目标(因为步骤太少)。因此,大量的研究都在寻找“最佳”学习率学习速率衰减就是这种研究的产物,它是一种学习速率在一段时间后不断衰减的方法,有助于网络更快地收敛
如果您担心如何在Keras中使用它们,请仔细阅读以下内容:
Using Learning Rate Schedules for Deep Learning Models in Python with Keras
How to Use Weight Decay to Reduce Overfitting of Neural Network in Keras
相关问题 更多 >
编程相关推荐