使用MFCC进行语音识别

2024-05-06 03:04:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在使用Fourier变换和Keras进行语音识别(说话人识别)。我听说MFCC是一个更好的选择,语音识别,但我不知道如何使用它。在

我使用python(3)中的librosa来提取20个MFCC特性。我的问题是:我应该使用哪些MFCC功能来识别说话人?在

除此之外,我不确定如何实现这些功能。我要做的是得到必要的特征,并为神经网络做一个长向量输入。然而,它也可以显示颜色,那么图像识别也可以吗,或者这是更针对语音,而不是说话人识别?在

总之,我不确定我应该从哪里开始,因为我对图像识别不是很有经验,也不知道从哪里开始。在

提前谢谢!!在


Tags: 功能颜色语音神经网络特征特性经验向量
3条回答

My question is: which MFCC features should I use for speaker identification?

我要说的是把它们都用上。从技术上讲,MFCC特性是从不同的滤波器组输出的。很难说它们中的哪一个有用。在

In addition to this I am unsure on how to implement these features. What I would do is to get the necessary features and make one long vector input for a neural network.

实际上,当你提取N个样本的MFCC时,你会得到一个类似于N x T x 20T的数组,它表示经过MFCC处理后音频信号中的帧数。我建议使用Sequence classification with LSTM。这样会有更好的结果。在

In addition to this I am unsure on how to implement these features. What I would do is to get the necessary features and make one long vector input for a neural network.

对于每个样本,你必须有一个二维的MFCC矩阵,比如N x T x no_mfccs(在你的例子中no_mfccs=20);为了使它成为一个单一的向量,不同的研究人员采取统计方法,如平均值、var、IQR等来降低特征维数。一些人还用多元回归建模,有些人将其拟合为高斯混合模型。这取决于下一阶段。在您的例子中,可以使用统计信息将其转换为单个向量

或者,正如Parthosarathi所说,可以使用LSTM跨时间帧保存顺序信息。在

However, it is also possible to display colors, so could image recognition also be possible, or is this more aimed at speech, and not speaker recognition?

我不建议您使用光谱图(图像)作为神经网络的特征向量,因为视觉图像和光谱图不会以相同的方式积累视觉对象和声音事件信息。在

当你将图像输入神经网络时,它假设图像的特征(像素值)具有相同的含义,而不管它们的位置如何。但在光谱图中,特征的位置非常重要。在

把男声的频率调高可以使男声的含义从男声变为童声。因此,2dcnn提供的空间不变性对于这种形式的数据可能没有很好的表现。 如需了解更多信息,请参阅:What’s wrong with CNNs and spectrograms for audio processing?

您可以将mfcc与稠密层/多层感知器一起使用,但是如果您有足够的训练数据,mel谱图上的卷积神经网络可能会表现更好。在

相关问题 更多 >