我可以控制Google TTS合成语音输出中单词之间的停顿吗?

2024-09-27 18:08:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图综合的演讲是街头演说。我正在输入一个CSV文件,其中包含街道地址、城市、州的列,然后使用Google的python texttospeech客户端库生成MP3输出。我遇到的问题是街道地址中奇怪的停顿。例如:

  • 7000北林肯大道被称为7000北(暂停)林肯 大道
  • 500 East Pleasant Run路被称为500 East Pleasant 运行(暂停)道路
  • 2000绿山交叉道称为2000 绿色安装交叉(暂停)驱动器

在输出文件中,这显然是不自然的。在我的合成输入中没有暂停或额外的空格,我无法辨别谷歌决定何时添加这些暂停的模式

synthesis_input = texttospeech.types.SynthesisInput(ssml=

            "</speak>We are located at {} {} in {} {}</speak>"

            .format(address1, address2, city, state))

导致奇数暂停的街道地址完全包含在address1变量中。我尝试过使用SSML标记并说as,但我尝试过的任何操作都不会导致可预测的暂停

我能做些什么来强制合成输出在说出的每个单词之间有可预测的或“规范化”的停顿吗?我现在的解决方法是在确定停顿时连接地址中的单词(北林肯变为北林肯)但这是劳动密集型的,甚至很难预测何时有必要这样做。谢谢你的建议


Tags: 文件csv客户端地址google街道单词mp3

热门问题