语音水平发音正确性Microsoft语音

2024-10-04 03:16:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Microsoft认知服务(使用Python API)提供的发音评估服务进行一些尝试。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有没有办法把它真正说出来的音素分解?换句话说。。根据参考文本,可以得到检测到的音素,而不是系统等待识别的音素作为输出

这张图片显示了我当前的输出。但是我不想得到组成单词“不能”的音素,而是想得到单词在输出中传递的音素

            {
                "Word": "can't", 
                "AccuracyScore": 85.0, 
                "ErrorType": "None", 
                "Offset": 39900000, 
                "Duration": 6500000, 
                "Phonemes": [
                    {
                        "Duration": 1300000, 
                        "Phoneme": "k", 
                        "AccuracyScore": 89.0, 
                        "Offset": 39900000
                    }, 
                    {
                        "Duration": 800000, 
                        "Phoneme": "aa", 
                        "AccuracyScore": 86.0, 
                        "Offset": 41300000
                    }, 
                    {
                        "Duration": 1600000, 
                        "Phoneme": "n", 
                        "AccuracyScore": 74.0, 
                        "Offset": 42200000
                    }, 
                    {
                        "Duration": 2500000, 
                        "Phoneme": "t", 
                        "AccuracyScore": 89.0, 
                        "Offset": 43900000
                    }
                ]
            }, 

提前谢谢


Tags: 文本api系统单词分数microsoftoffset细分
1条回答
网友
1楼 · 发布于 2024-10-04 03:16:11

通过查看Github上的Pronunciation assessmentsample code文档,我们似乎可以通过打印reference_text得到演讲者所说的内容

enter image description here

您还可以通过PronunciationAssessmentConfig.to_json()pronunciation_config.to_json())来获取所有参数(包括其中的reference_text

相关问题 更多 >