使用MFCC进行语音识别

网友

1楼 · 编辑于 2024-05-06 03:04:23

My question is: which MFCC features should I use for speaker identification?

我要说的是把它们都用上。从技术上讲，MFCC特性是从不同的滤波器组输出的。很难说它们中的哪一个有用。在

In addition to this I am unsure on how to implement these features. What I would do is to get the necessary features and make one long vector input for a neural network.

实际上，当你提取N个样本的MFCC时，你会得到一个类似于N x T x 20T的数组，它表示经过MFCC处理后音频信号中的帧数。我建议使用Sequence classification with LSTM。这样会有更好的结果。在

网友

2楼 · 编辑于 2024-05-06 03:04:23

In addition to this I am unsure on how to implement these features. What I would do is to get the necessary features and make one long vector input for a neural network.

对于每个样本，你必须有一个二维的MFCC矩阵，比如N x T x no_mfccs（在你的例子中no_mfccs=20）；为了使它成为一个单一的向量，不同的研究人员采取统计方法，如平均值、var、IQR等来降低特征维数。一些人还用多元回归建模，有些人将其拟合为高斯混合模型。这取决于下一阶段。在您的例子中，可以使用统计信息将其转换为单个向量

或者，正如Parthosarathi所说，可以使用LSTM跨时间帧保存顺序信息。在

However, it is also possible to display colors, so could image recognition also be possible, or is this more aimed at speech, and not speaker recognition?

我不建议您使用光谱图（图像）作为神经网络的特征向量，因为视觉图像和光谱图不会以相同的方式积累视觉对象和声音事件信息。在

当你将图像输入神经网络时，它假设图像的特征（像素值）具有相同的含义，而不管它们的位置如何。但在光谱图中，特征的位置非常重要。在

把男声的频率调高可以使男声的含义从男声变为童声。因此，2dcnn提供的空间不变性对于这种形式的数据可能没有很好的表现。如需了解更多信息，请参阅：What’s wrong with CNNs and spectrograms for audio processing?

网友

3楼 · 编辑于 2024-05-06 03:04:23

您可以将mfcc与稠密层/多层感知器一起使用，但是如果您有足够的训练数据，mel谱图上的卷积神经网络可能会表现更好。在

相关问题更多 >

编程相关推荐

热门问题

热门文章