当未声明特定重量衰减时,使用的标准重量衰减是什么?

2024-05-18 08:36:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我想实现一个自动编码器,报纸上说它使用了adam优化器,初始学习率为。。。重量衰减设置为

我读到有几种类型的重量衰减,如果没有给出确切的重量衰减类型,将使用什么标准

我还看到(https://www.pyimagesearch.com/2019/07/22/keras-learning-rate-schedules-and-decay/)在Keras中实施了标准衰变计划,但在Keras文档中找不到。可以使用此重量衰减时间表吗

所示的标准衰减时间表如下所示:

opt = SGD(lr=1e-2, decay=1e-2/epochs)

Tags: httpscom类型标准www时间表编码器keras
1条回答
网友
1楼 · 发布于 2024-05-18 08:36:18

我想你可能把学习率衰退和体重衰退混淆了,它们都是不同的术语。你分享的链接是关于学习率下降的,而不是体重下降的

权重衰减是添加到梯度下降公式中的一个附加项,用于帮助调整网络权重,并使其指数衰减为零(从而防止过度拟合)。如果你翻阅文献,你会听到像L1 regularizer/L2 regularizer这样的术语,这些就是我们正在谈论的重量衰减

另一方面,学习率是优化公式(梯度下降)中的一个常数项(alpha),它决定了我们将朝着梯度迈出多大的一步。它主要决定算法的收敛速度,如果我们采取的步骤(学习速度)太大,那么我们可能会偏离最优解,如果我们的步骤(学习速度)太小,我们需要很长时间才能达到目标,或者我们可能根本无法达到目标(因为步骤太少)。因此,大量的研究都在寻找“最佳”学习率学习速率衰减就是这种研究的产物,它是一种学习速率在一段时间后不断衰减的方法,有助于网络更快地收敛

如果您担心如何在Keras中使用它们,请仔细阅读以下内容:

Using Learning Rate Schedules for Deep Learning Models in Python with Keras

How to Use Weight Decay to Reduce Overfitting of Neural Network in Keras

相关问题 更多 >