如何将可变长度的语音特征反馈给RNN(LSTM)进行语音识别?

2024-09-27 21:29:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试建立一个语音识别系统,这是一个序列模型。但我对如何将提取的特征(维数为40的fbank)提供给LSTM感到困惑。据我所知,有不同的方法将数据输入LSTM。然而,我怀疑是否能够完全理解它们。如果有人告诉我在以下情况下我是否正确,我会非常感激

案例1: 在方便的格式[批量大小时间步长功能尺寸]中,如果我选择[1,,40],每个序列(话语)的长度可以改变?如果是这样,在这种情况下,我不需要填充每个序列,对吗

案例2: 如果所有输入序列都填充到相同的长度,则批大小可以是任何值,如64、128等

最后,还有一个问题,我是否注意到每个批次的时间步应该是相同的

如果有人能帮我消除疑虑或给我一些建议,我将不胜感激


Tags: 数据方法模型格式时间情况语音序列
1条回答
网友
1楼 · 发布于 2024-09-27 21:29:02

这取决于你的系统是如何构建的,是端到端的培训,还是你使用了手工工程功能,比如MFCC?另一个注意事项是RNN的主要用途是具有可变长度的输入

相关问题 更多 >

    热门问题