文本已知时音频文件中的单词索引

2024-10-03 17:15:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个音频文件和一个文本文件,它们对应于音频中所说的内容。他们使用Python(使用任何库)查找音频中每个单词的开始时间戳(最终结束)的方法。在

例如,如果我有一个音频文件和一个包含“Hello,my name is”(与音频中所说内容相对应)的文本文件,我希望获得如下内容:

"Hello" : 1'24.038 -> 1'24.321    
"my" : 1'24.518 -> 1'24.627    
"name" : 1'24.629 -> 1'24.851    
"is" : 1'24.861 -> 1'24.921   

我意识到语音识别是一个非常困难的问题,但我的问题似乎要简单得多,因为它只需要匹配文本和音频。然而,我仍然没有找到任何方法去做,如果没有什么简单的事情,有人知道我该怎么开始吗?谢谢!在


Tags: 方法name文本内容helloismy时间
2条回答

aeneas做得很好。在我的经验中相当稳健。唯一的缺点是它似乎更善于找到开头的词,即结尾。所以基本上你会有:

"Hello" : 1'24.038 -> 1'24.518 
"my" : 1'24.518 ->  1'24.629   
"name" : 1'24.629 -> 1'24.861    
"is" : 1'24.861 -> 1'24.921  

试试看!在

这称为“强制音频对齐”。只要音频持续时间相对较短,这个问题就很容易解决,大多数语音识别框架都可以解决这个问题。但是,问题是becomes trickier当音频很长时。Python没有现成的解决方案,因此您必须从代码中调用二进制文件。在

相关问题 更多 >