语音水平发音正确性Microsoft语音

2024-10-04 03:16:11 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在使用Microsoft认知服务（使用Python API）提供的发音评估服务进行一些尝试。目前，我可以根据我在请求中传递的参考文本显示音素细分（以及置信度分数）。我的问题是：有没有办法把它真正说出来的音素分解？换句话说。。根据参考文本，可以得到检测到的音素，而不是系统等待识别的音素作为输出

这张图片显示了我当前的输出。但是我不想得到组成单词“不能”的音素，而是想得到单词在输出中传递的音素

            {
                "Word": "can't", 
                "AccuracyScore": 85.0, 
                "ErrorType": "None", 
                "Offset": 39900000, 
                "Duration": 6500000, 
                "Phonemes": [
                    {
                        "Duration": 1300000, 
                        "Phoneme": "k", 
                        "AccuracyScore": 89.0, 
                        "Offset": 39900000
                    }, 
                    {
                        "Duration": 800000, 
                        "Phoneme": "aa", 
                        "AccuracyScore": 86.0, 
                        "Offset": 41300000
                    }, 
                    {
                        "Duration": 1600000, 
                        "Phoneme": "n", 
                        "AccuracyScore": 74.0, 
                        "Offset": 42200000
                    }, 
                    {
                        "Duration": 2500000, 
                        "Phoneme": "t", 
                        "AccuracyScore": 89.0, 
                        "Offset": 43900000
                    }
                ]
            },

提前谢谢

Tags：文本 api 系统单词分数 microsoft offset 细分

1条回答

网友

1楼 · 发布于 2024-10-04 03:16:11

通过查看Github上的Pronunciation assessment和sample code文档，我们似乎可以通过打印reference_text得到演讲者所说的内容

您还可以通过PronunciationAssessmentConfig.to_json()（pronunciation_config.to_json()）来获取所有参数（包括其中的reference_text）

语音水平发音正确性Microsoft语音

相关问题更多 >

编程相关推荐

热门问题

热门文章

语音水平发音正确性Microsoft语音

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >