擅长:python、mysql、java
<p>为了跟踪@lemm-ras的<a href="https://stackoverflow.com/a/38907274/957657">answer</a>,<a href="https://arxiv.org/abs/1511.03771" rel="nofollow noreferrer">this paper</a>由Talathi和Vartak提出,递归权重矩阵的初始值将强烈影响具有reLU激活的递归神经网络的性能。特别地,作者证明了当递归权值矩阵被初始化为正定时,具有ReLU激活的递归单元网络的性能最好,最大特征值等于1,其他所有特征值小于1。他们的解释是,网络权重随时间变化的方式取决于网络的初始条件(如Talathi和Vartak的图2所示),并可能导致一些不同的情况:</p>
<p>案例1:如果所有的特征值都是一个,那么网络从一个稳定的条件开始,并且不会随着时间的推移而演变(图2a)</p>
<p>情况2:如果所有特征值都小于1,则网络被吸引到原点,网络将始终朝着零的递归权重矩阵演化(图2b)。在</p>
<p>情况3:如果任何eignevalues大于1,则网络没有稳定的吸引子,并且将“爆炸”(图2d)。在</p>
<p>情况4:如果递归权值矩阵有一个特征值为1,其余的特征值小于1,那么网络将向一个稳定的流形演化,并且它可以达到一个稳定的非零解(图2c)。我不知道这是否能保证对所有问题都是正确的,所以我认为最好把它看作是一个必要条件,但不能被证明是充分条件。在</p>
<p>从最初的问题看来,@rksh的问题是第二种情况,网络被吸引到零。尝试按照塔拉西和瓦塔克的建议初始化权重矩阵,看看这是否能解决问题。在</p>