深度自动语音识别模型训练框架。
sonosco的Python项目详细描述
Sonosco(来自Lat.sonus-sound和nōscō-我知道,认识) 是一个用于训练和部署深层语音识别模型的库。在
该项目的目标是实现快速、可重复和结构化的深度培训
自动语音识别(ASR)模型,以及为
尝试训练过的转录模型。
此外,我们还为ROS提供接口,以便与
拟人机器人Roboy。
安装
通过pip
使用Sonosco功能的最简单方法是通过pip:
pip install sonosco
Note:Sonosco需要Python3.6或更高版本。在
为了提高可靠性,我们建议使用virtualenv或conda等环境虚拟化工具。在
面向开发人员或试用转录服务器
克隆存储库并安装依赖项:
^{pr2}$现在您可以查看一些Getting Started教程,以训练模型或使用
转录服务器。
快速启动
Dockerized inference server
Get the hold of our new fully trained models from the latest release! Try out the LAS model for the best performance. Then specify the folder with the model to the runner script as shown underneath.
You can get the docker image from dockerhub under ^{
You can also specify the path to your own models by writing
^{
Open http://localhost:5000在Chrome中。你应该能够添加模型来表演 点击加号按钮进行转录。添加模型后,请记录您自己的模型 单击录制按钮发出声音。你可以用 相应的按钮。在
您可以从这个存储库的release选项卡中获取预训练的模型。在
高级设计
项目分为四个部分,相互关联:
对于数据(-processing),提供了下载和预处理的脚本 一些用于语音识别的公开数据集。另外, 我们提供脚本和函数来创建清单文件 (即目录文件)用于您自己的数据并合并现有清单文件 合二为一。在
这些数据或者更确切地说,清单文件可以用来轻松地训练和 评估ASR模型。我们提供一些ASR模型架构,如LAS, TDS和DeepSpeech2以及单独的Pythorch模型都可以设计用于训练。在
经过训练的模型可以在转录服务器中使用,它包括 以及一个简单的Vue.js版前端转录录制的语音 通过麦克风将转录结果与其他模型(可以 在我们的Github存储库中下载)。在
此外,我们还提供了示例代码,如何在ROS中使用不同的ASR模型 尤其是Roboy ROS接口(即主题和消息)。在
- 项目
标签: