2024-09-28 01:28:41 发布
网友
我有一个人类声音的小声学数据集,我想对其进行扩充,然后将其传递给一个二进制分类器
我熟悉图像的数据增强,但如何对声学数据集进行数据增强呢
我找到了两个关于autoencoders和SpecAugment with Pytorch & TorchAudio的相关答案 但我想听听您对音频特定的“最佳方法”的看法
这实际上取决于你想要实现什么,你的分类器是为什么而设计的,以及它是如何工作的
根据上述情况,例如,您可以以不同的方式剪切音频(如果您向分类器提供剪切音频片段,并且在您的特定情况下这是有意义的)。您还可以使用具有不同信噪比的一些背景噪声(人工噪声,如白噪声或记录的噪声)来增强它-这还应该使分类器对噪声更具鲁棒性
这实际上取决于你想要实现什么,你的分类器是为什么而设计的,以及它是如何工作的
根据上述情况,例如,您可以以不同的方式剪切音频(如果您向分类器提供剪切音频片段,并且在您的特定情况下这是有意义的)。您还可以使用具有不同信噪比的一些背景噪声(人工噪声,如白噪声或记录的噪声)来增强它-这还应该使分类器对噪声更具鲁棒性
相关问题 更多 >
编程相关推荐