擅长:python、mysql、java
<blockquote>
<p>In addition to this I am unsure on how to implement these features.
What I would do is to get the necessary features and make one long
vector input for a neural network.</p>
</blockquote>
<p>对于每个样本,你必须有一个二维的MFCC矩阵,比如N x T x no_mfccs(在你的例子中no_mfccs=20);为了使它成为一个单一的向量,不同的研究人员采取统计方法,如平均值、var、IQR等来降低特征维数。一些人还用多元回归建模,有些人将其拟合为高斯混合模型。这取决于下一阶段。在您的例子中,可以使用统计信息将其转换为单个向量</p>
<p>或者,正如Parthosarathi所说,可以使用LSTM跨时间帧保存顺序信息。在</p>
<blockquote>
<p>However, it is also possible to display colors, so could image recognition also be possible, or is this more aimed at speech, and not speaker recognition?</p>
</blockquote>
<p>我不建议您使用光谱图(图像)作为神经网络的特征向量,因为视觉图像和光谱图不会以相同的方式积累视觉对象和声音事件信息。在</p>
<p>当你将图像输入神经网络时,它假设图像的特征(像素值)具有相同的含义,而不管它们的位置如何。但在光谱图中,特征的位置非常重要。在</p>
<p>把男声的频率调高可以使男声的含义从男声变为童声。因此,2dcnn提供的空间不变性对于这种形式的数据可能没有很好的表现。
如需了解更多信息,请参阅:<a href="https://towardsdatascience.com/whats-wrong-with-spectrograms-and-cnns-for-audio-processing-311377d7ccd" rel="nofollow noreferrer">What’s wrong with CNNs and spectrograms for audio processing?</a></p>