我们有一些屏幕投射需要被配音到各种语言,我们有目标语言的文本脚本,如下所示:
Begining Time Audio Narration 0:0 blah nao lorep iposm... 1:20 xao dok dkjv dwv.... ..
我们可以单独记录上面的每一个单元,然后在上面脚本中提到的适当的开始时间对齐它。在
示例:
输入:
输入N个定时值:0:0,1:20。。。 然后输入N段录音
输出:
录音与上述时间一致。溢出应由系统单独检测,而下溢则由静默来填充。在
是否有任何平台无关的音频API\软件或最好是python中的代码片段,允许我们根据提供的时间调整这些音频单元?在
如果输入的音频文件是未压缩的(如WAV文件等),我喜欢使用的音频库是libsndfile。它似乎有一个python包装器:https://code.google.com/p/libsndfile-python/。考虑到这一点,剩下的可以这样完成:
使用libsndfile打开要向其写入音频数据的输出音频流
对于每个输入音频文件,使用libsndfile打开一个输入流
根据文本描述“脚本”提取给定音频文件的元数据信息
将所需的任何静默写入主输出流,然后将数据从输入流写入输出流。注意当前位置/时间。对每个输入音频文件重复此步骤,检查音频剪辑的目标开始时间是否始终与前面记录的当前位置/时间相同。如果没有,那么你有一个重叠。在
当然,您必须担心样本率匹配等问题,但这已经足够开始了。另外,我不太确定您是要编写一个输出文件,还是为每个输入文件编写一个输出文件,但是这个答案应该足够了。libsndfile将为您提供所需的所有信息(如片段长度等),假设它支持输入文件格式。在
相关问题 更多 >
编程相关推荐