如何使用二进制掩码和STFT生成音频文件?

2024-10-04 03:27:25 发布

您现在位置:Python中文网/ 问答频道 /正文

所以这里的想法是:你可以用短时傅立叶变换(stft)从音频文件中生成一个频谱图。然后some people生成了一个称为“二进制掩模”的东西,以从逆stft生成不同的音频(即去除背景噪声等)。你知道吗

以下是我的理解:

  1. stft是一个应用于音频文件的简单公式,它生成的信息可以很容易地显示在频谱图上。你知道吗
  2. 通过取stft矩阵的逆矩阵,并将其乘以相同大小的矩阵(二进制矩阵),您可以创建一个包含信息的新矩阵,以生成具有屏蔽声音的音频文件。你知道吗

一旦我做了矩阵乘法,新的音频文件是如何创建的?

虽然不多,但我的代码如下:

from librosa import load
from librosa.core import stft, istft
y, sample_rate = load('1.wav')
spectrum = stft(y)
back_y = istft(spectrum)

谢谢,还有here一些幻灯片让我走了这么远。如果您能给我一个python示例/演示,我将不胜感激


Tags: fromimport信息二进制load矩阵somepeople