我如何在googlespeechapi中提高long-running-ungurecognition的信心

2024-10-01 00:35:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在开发一个使用googlespeechapi(Python)的语音识别服务。在

在目前作为样本的韩国语听力评测mp3文件中,除了配音演员的声音外,没有其他声音。在

我目前正在使用long_running_recognize,将我的mp3文件转换成FLAC并上传到Google存储,但文件的准确性只有60%,持续2分钟。在

我想我用了最直观的数据作为样本,我想知道文件的长度是否会影响识别率,以及是否可以提高性能。在


Tags: 文件声音google语音mp3running直观long
1条回答
网友
1楼 · 发布于 2024-10-01 00:35:34

你可能还没有得到回复(我看到你发布这篇文章已经11个月了),因为信心分数并不是由你决定的——这只是谷歌让你知道他们的模型成绩单预测对你的输入文件有多自信。如果你想要更高的自信心,提供“更容易理解”的音频文件(清晰的录音、缓慢、清晰的语音、无口音等)。在

但是,有些事情你可以做。你应该尝试使用无损音频(.flac或.wav),每个采样率至少为16位,采样率很高(大多数人都试图以44100赫兹录制)。重要的是,在转录之前不要对音频执行任何背景噪声消除。谷歌语音API分析噪音,并使用它清理你的文件在他们的管道-通过消除噪音,你只是破坏他们的转录管道。在

您可以在这里了解更多关于改进转录的最佳实践(可能还有置信度分数):https://cloud.google.com/speech-to-text/docs/best-practices

相关问题 更多 >