递归神经网络中的ReLU函数。权重变为无穷大或Z

2条回答

网友

1楼 · 编辑于 2024-06-25 22:33:36

为了跟踪@lemm-ras的answer，this paper由Talathi和Vartak提出，递归权重矩阵的初始值将强烈影响具有reLU激活的递归神经网络的性能。特别地，作者证明了当递归权值矩阵被初始化为正定时，具有ReLU激活的递归单元网络的性能最好，最大特征值等于1，其他所有特征值小于1。他们的解释是，网络权重随时间变化的方式取决于网络的初始条件（如Talathi和Vartak的图2所示），并可能导致一些不同的情况：

案例1：如果所有的特征值都是一个，那么网络从一个稳定的条件开始，并且不会随着时间的推移而演变（图2a）

情况2：如果所有特征值都小于1，则网络被吸引到原点，网络将始终朝着零的递归权重矩阵演化（图2b）。在

情况3：如果任何eignevalues大于1，则网络没有稳定的吸引子，并且将“爆炸”（图2d）。在

情况4：如果递归权值矩阵有一个特征值为1，其余的特征值小于1，那么网络将向一个稳定的流形演化，并且它可以达到一个稳定的非零解（图2c）。我不知道这是否能保证对所有问题都是正确的，所以我认为最好把它看作是一个必要条件，但不能被证明是充分条件。在

从最初的问题看来，@rksh的问题是第二种情况，网络被吸引到零。尝试按照塔拉西和瓦塔克的建议初始化权重矩阵，看看这是否能解决问题。在

网友

2楼 · 编辑于 2024-06-25 22:33:36

我不认为隐藏节点的数量是问题所在。在

在第一种情况下，由于梯度下降更新错误，权重接近无穷大。相对于权重的损失的梯度表示应该更新权重以增加损失的方向。由于人们（通常）希望最小化它，如果权重朝正方向更新，它们将增加损失，并且很可能导致发散。在

尽管如此，即使假设更新是正确的，我也会认为它更像是错误的初始化/超参数设置，而不是一个严格依赖于ReLU的问题（很明显，ReLU在其正部分爆炸，给出无穷大，而sigmoid饱和，给出1）。在

在第二种情况下，正在发生的是死区ReLU问题，饱和ReLU总是给出相同（零）的输出，并且它不能自我恢复。它的发生有很多原因（例如，错误的初始化，错误的偏差学习），但最有可能的是更新步骤太高。试着降低你的学习率，看看会发生什么。在

如果这不能解决问题，请考虑使用Leaky ReLU版本，也只是为了简单的调试目的。在

关于泄漏ReLU和死ReLU的更多（和更好的解释）细节可以在这里找到：https://datascience.stackexchange.com/questions/5706/what-is-the-dying-relu-problem-in-neural-networks

相关问题更多 >

编程相关推荐

热门问题

热门文章