如何将可变长度的语音特征反馈给RNN（LSTM）进行语音识别？

2024-09-27 21:29:02 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试建立一个语音识别系统，这是一个序列模型。但我对如何将提取的特征（维数为40的fbank）提供给LSTM感到困惑。据我所知，有不同的方法将数据输入LSTM。然而，我怀疑是否能够完全理解它们。如果有人告诉我在以下情况下我是否正确，我会非常感激

案例1: 在方便的格式[批量大小，时间步长，功能尺寸]中，如果我选择[1，无，40]，每个序列（话语）的长度可以改变？如果是这样，在这种情况下，我不需要填充每个序列，对吗

案例2: 如果所有输入序列都填充到相同的长度，则批大小可以是任何值，如64、128等

最后，还有一个问题，我是否注意到每个批次的时间步应该是相同的

如果有人能帮我消除疑虑或给我一些建议，我将不胜感激

Tags：数据方法模型格式时间情况语音序列

1条回答

网友

1楼 · 发布于 2024-09-27 21:29:02

这取决于你的系统是如何构建的，是端到端的培训，还是你使用了手工工程功能，比如MFCC？另一个注意事项是RNN的主要用途是具有可变长度的输入