我正在尝试建立一个语音识别系统,这是一个序列模型。但我对如何将提取的特征(维数为40的fbank)提供给LSTM感到困惑。据我所知,有不同的方法将数据输入LSTM。然而,我怀疑是否能够完全理解它们。如果有人告诉我在以下情况下我是否正确,我会非常感激
案例1: 在方便的格式[批量大小,时间步长,功能尺寸]中,如果我选择[1,无,40],每个序列(话语)的长度可以改变?如果是这样,在这种情况下,我不需要填充每个序列,对吗
案例2: 如果所有输入序列都填充到相同的长度,则批大小可以是任何值,如64、128等
最后,还有一个问题,我是否注意到每个批次的时间步应该是相同的
如果有人能帮我消除疑虑或给我一些建议,我将不胜感激
这取决于你的系统是如何构建的,是端到端的培训,还是你使用了手工工程功能,比如MFCC?另一个注意事项是RNN的主要用途是具有可变长度的输入
相关问题 更多 >
编程相关推荐