我为wav文件运行下面的代码,得到4个变量:sound.files文件,在输出中选择、开始和结束。output。有没有人知道是否有可能为每一次谈话安排发言人,这样我们就可以知道每个明星和结束时长是speakerA在讲话还是speakerB在讲话。你知道吗
autodetec(flist = sub, threshold = 0.5, env = "abs", ssmooth = 500, power = 1, redo = TRUE,
bp=c(0,9), xl = 2, picsize = 2, res = 200, flim= c(0,10), osci = TRUE,
wl = 300, ls = FALSE, sxrow = 2, rows = 4, mindur=0.5, maxdur=8, set = TRUE)
这个问题以speaker diarisation为主题。如果您已经为每个说话人(autodetect函数的输出)提供了相同的段,那么您可以计算音频描述符,例如使用良好的MFCC,来对每个段进行分类。一个简单的分类器,比如Kmeans,可以完成这项工作。你知道吗
相关问题 更多 >
编程相关推荐