我试图综合的演讲是街头演说。我正在输入一个CSV文件,其中包含街道地址、城市、州的列,然后使用Google的python texttospeech客户端库生成MP3输出。我遇到的问题是街道地址中奇怪的停顿。例如:
在输出文件中,这显然是不自然的。在我的合成输入中没有暂停或额外的空格,我无法辨别谷歌决定何时添加这些暂停的模式
synthesis_input = texttospeech.types.SynthesisInput(ssml=
"</speak>We are located at {} {} in {} {}</speak>"
.format(address1, address2, city, state))
导致奇数暂停的街道地址完全包含在address1变量中。我尝试过使用SSML标记并说as,但我尝试过的任何操作都不会导致可预测的暂停
我能做些什么来强制合成输出在说出的每个单词之间有可预测的或“规范化”的停顿吗?我现在的解决方法是在确定停顿时连接地址中的单词(北林肯变为北林肯)但这是劳动密集型的,甚至很难预测何时有必要这样做。谢谢你的建议
目前没有回答
相关问题 更多 >
编程相关推荐