文本已知时音频文件中的单词索引 - 问答 - Python中文网

文本已知时音频文件中的单词索引

2024-10-03 17:15:30 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个音频文件和一个文本文件，它们对应于音频中所说的内容。他们使用Python（使用任何库）查找音频中每个单词的开始时间戳（最终结束）的方法。在

例如，如果我有一个音频文件和一个包含“Hello，my name is”（与音频中所说内容相对应）的文本文件，我希望获得如下内容：

"Hello" : 1'24.038 -> 1'24.321    
"my" : 1'24.518 -> 1'24.627    
"name" : 1'24.629 -> 1'24.851    
"is" : 1'24.861 -> 1'24.921

我意识到语音识别是一个非常困难的问题，但我的问题似乎要简单得多，因为它只需要匹配文本和音频。然而，我仍然没有找到任何方法去做，如果没有什么简单的事情，有人知道我该怎么开始吗？谢谢！在

Tags：方法 name 文本内容 hello is my 时间

2条回答

网友

1楼 · 编辑于 2024-10-03 17:15:30

aeneas做得很好。在我的经验中相当稳健。唯一的缺点是它似乎更善于找到开头的词，即结尾。所以基本上你会有：

"Hello" : 1'24.038 -> 1'24.518 
"my" : 1'24.518 ->  1'24.629   
"name" : 1'24.629 -> 1'24.861    
"is" : 1'24.861 -> 1'24.921

试试看！在

网友

2楼 · 编辑于 2024-10-03 17:15:30

这称为“强制音频对齐”。只要音频持续时间相对较短，这个问题就很容易解决，大多数语音识别框架都可以解决这个问题。但是，问题是becomes trickier当音频很长时。Python没有现成的解决方案，因此您必须从代码中调用二进制文件。在

相关问题更多 >

编程相关推荐

热门问题

热门文章