我刚开始深入学习,这个问题对你来说可能很有趣。但我无法在脑海中想象。这就是为什么我要问这个问题。在
我给一个句子作为向量的LSTM,我认为我有一个句子包含10个单词。然后我把这些句子改成向量,然后交给LSTM。在
LSTM单元的长度应为10。但在大多数教程中,我看到它们添加了128个隐藏状态。我无法理解和想象。这个词用"128-dimensional hidden state"
表示LSTM层是什么意思
例如:
X = LSTM(128, return_sequences=True)(embeddings)
这个样子的夏天
^{pr2}$这里看起来像是增加了10个LSTM单元,但为什么会有128个隐藏状态呢?希望你能理解我的期望。在
简短回答: 如果你对卷积网络比较熟悉,你可以厚的LSTM层的大小(128)相当于一个卷积层的大小。10只表示输入的大小(序列的长度是10)
较长的答案: 您可以查看这篇文章以了解更多细节article about RNNs。在
在左图中,LSTM层用(
xt
)作为输入,输出为(ht
)。反馈箭头表示单元格内有某种内存。在实际上,在Keras(右图)中,这个模型被“展开”以使整个输入
xt
与我们的层并行。在所以当你的总结是: lstm_1(lstm)(无,10128)91648
这意味着您的输入序列是10(
x0,x1,x2,...,x9
),LSTM的大小是128(128将是输出的ht
)的维度相关问题 更多 >
编程相关推荐