我正在做一个项目,通过接收用户的实时音频输入来预测用户的性别。在研究这个项目时,我遇到了kagglehttps://www.kaggle.com/primaryobjects/voicegender的一个数据集,提出了一个CART逻辑,其中
if meanfun<0.14:
if IQR>=0.07:
return male
else
return female
else
return female
我试图寻找平均基频,但找不到任何有用的资源。
请解释一下这个概念,平均频率和平均基频的区别是什么?以及如何计算它的价值。在
Tags:
我将试图解释这个概念。。。在
一般来说,信号可以定义为正弦波之和。正弦波可以用方程式Asin(ωt+φ)数学定义,其中a是振幅,ω是角频率,t是时间,φ是相移。ω可以进一步替换为2πf,其中f是频率,单位为赫兹(您链接的文档中使用的单位)。当他们在这里提到频率时,你可以把它看作原始信号的正弦波分量。在
正弦波的定义在wikipedia页面和许多其他资源中都有描述,here。在
您所看到的音频信号是复杂的信号,可能包含许多正弦波。基频是指检测到的最低频率(wiki here)。我想平均基频是信号中检测到的所有频率的平均值。在
找到频率的最常用方法是使用快速傅立叶变换(FFT)-这会将信号从时域变换到频域,基本上可以得到构成原始信号的所有正弦波分量的分解。或者,你可以用峰值检测把你的手弄脏-频率本质上是在一段时间内发生的事情的次数,所以你可以从字面上计算1分钟内出现的峰值数(例如),从而得到频率值(以赫兹为单位)。但我绝对不推荐它用于语音音频信号。在
为了让您了解频率值在音频频谱中的位置,让我们比较一下音符中间的C和上面的a。中间C是261.626hz,A是440.000hz(source)。如你所见,高音符的频率更高。在
这个项目的逻辑是说女性的声音比男性声音的频率更高(这并不奇怪)。也就是说,在较低频率的女性声音在其他频率成分的范围内比男性声音更紧密(?)只是基于IQR>;0.07,这是非常有趣的。在
希望这有帮助。在
相关问题 更多 >
编程相关推荐