我正在使用Microsoft认知服务(使用Python API)提供的发音评估服务进行一些尝试。目前,我可以根据我在请求中传递的参考文本显示音素细分(以及置信度分数)。我的问题是:有没有办法把它真正说出来的音素分解?换句话说。。根据参考文本,可以得到检测到的音素,而不是系统等待识别的音素作为输出
这张图片显示了我当前的输出。但是我不想得到组成单词“不能”的音素,而是想得到单词在输出中传递的音素
{
"Word": "can't",
"AccuracyScore": 85.0,
"ErrorType": "None",
"Offset": 39900000,
"Duration": 6500000,
"Phonemes": [
{
"Duration": 1300000,
"Phoneme": "k",
"AccuracyScore": 89.0,
"Offset": 39900000
},
{
"Duration": 800000,
"Phoneme": "aa",
"AccuracyScore": 86.0,
"Offset": 41300000
},
{
"Duration": 1600000,
"Phoneme": "n",
"AccuracyScore": 74.0,
"Offset": 42200000
},
{
"Duration": 2500000,
"Phoneme": "t",
"AccuracyScore": 89.0,
"Offset": 43900000
}
]
},
提前谢谢
通过查看Github上的Pronunciation assessment和sample code文档,我们似乎可以通过打印
reference_text
得到演讲者所说的内容您还可以通过PronunciationAssessmentConfig.to_json()(
pronunciation_config.to_json()
)来获取所有参数(包括其中的reference_text
)相关问题 更多 >
编程相关推荐