Python:PortAudio+Opus编解码

import pyaudio from opus import encoder, decoder def streaming(p): chunk = 960 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 48000 streamin = p.open(format = FORMAT, channels = CHANNELS, rate = RATE, input = True, input_device_index = 7, frames_per_buffer = chunk) streamout = p.open(format = FORMAT, channels = CHANNELS, rate = 48000, output = True, output_device_index = p.get_default_input_device_info()["index"], frames_per_buffer = chunk) enc = encoder.Encoder(RATE,CHANNELS,'voip') dec = decoder.Decoder(RATE,CHANNELS) data = [] for i in xrange(100): data.append(streamin.read(chunk*2)) streamout.write(''.join(data)) encdata = [] for x in data: encdata.append(enc.encode(x,chunk)) print "DATA LENGTH :", len(''.join(data)) print "ENCDATA LENGTH :", len(''.join(encdata)) decdata = '' for x in encdata: decdata += dec.decode(x,chunk) print "DECDATA LENGTH :", len(decdata) streamout.write(decdata) streamin.close() streamout.close() p = pyaudio.PyAudio() streaming(p) p.terminate()

2条回答

网友

1楼 · 编辑于 2024-06-01 21:03:13

这似乎是由解码方法中python opus中的一个错误引起的。

根据Opus API，opus_decode返回解码的样本数。python绑定假定它将完全填满它传入的结果缓冲区，因此在每一组解码的示例中都会附加一个静默。这种沉默导致在低帧尺寸时开裂，在高帧尺寸时结巴。虽然文档中没有说明这一点，但返回的数字似乎是每个通道的。

将第150 of opus/api/decoder.py行更改为以下行可以为我修复它：

    return array.array('h', pcm[:result*channels]).tostring()

如果需要使用，decode_float方法可能需要相同的更改。

网友

2楼 · 编辑于 2024-06-01 21:03:13

把产量减半，参加第一部分。经过反复试验，我发现这个解决方案令人满意。

from opus import decoder as opus_decoder
from opus import encoder as opus_encoder

class OpusCodec():
    def __init__(self, *args, **kwargs):
        self.chunk = 960
        self.channels = 1
        self.rate = 48000
        self.encoder = opus_encoder.Encoder(
            self.rate, 
            self.channels,
            opus_encoder.APPLICATION_TYPES_MAP['voip']
        )
        self.decoder = opus_decoder.Decoder(
            self.rate, 
            self.channels, 
        )

    def encode(self, data, **kwargs):
        if not 'frame_size' in kwargs:
            kwargs['frame_size'] = self.chunk
        out = self.encoder.encode(data, frame_size=self.chunk)
        return out

    def decode(self, data, **kwargs):
        if not 'frame_size' in kwargs:
            kwargs['frame_size'] = self.chunk
        out = self.decoder.decode(data, **kwargs)
        return out[0:int(len(out)/2)] # hackety hack :D

相关问题更多 >

编程相关推荐

热门问题

热门文章