深度自动语音识别模型训练框架。

sonosco的Python项目详细描述


# Sonosco



Sonosco(来自Lat.sonus-sound和nōscō-我知道,认识) 是一个用于训练和部署深层语音识别模型的库。在

该项目的目标是实现快速、可重复和结构化的深度培训 自动语音识别(ASR)模型,以及为 尝试训练过的转录模型。
此外,我们还为ROS提供接口,以便与 拟人机器人Roboy



安装

通过pip

使用Sonosco功能的最简单方法是通过pip:

pip install sonosco

Note:Sonosco需要Python3.6或更高版本。在

为了提高可靠性,我们建议使用virtualenv或conda等环境虚拟化工具。在



面向开发人员或试用转录服务器

克隆存储库并安装依赖项:

^{pr2}$

现在您可以查看一些Getting Started教程,以训练模型或使用 转录服务器。



快速启动

Dockerized inference server

Get the hold of our new fully trained models from the latest release! Try out the LAS model for the best performance. Then specify the folder with the model to the runner script as shown underneath.

You can get the docker image from dockerhub under ^{}. Just run ^{} to pull and start the server or optionally build your own image by executing the following commands.

^{pr 3}$

You can also specify the path to your own models by writing ^{}.

Open http://localhost:5000在Chrome中。你应该能够添加模型来表演 点击加号按钮进行转录。添加模型后,请记录您自己的模型 单击录制按钮发出声音。你可以用 相应的按钮。在

您可以从这个存储库的release选项卡中获取预训练的模型。在


高级设计

# High-Level-Design

项目分为四个部分,相互关联:

对于数据(-processing),提供了下载和预处理的脚本 一些用于语音识别的公开数据集。另外, 我们提供脚本和函数来创建清单文件 (即目录文件)用于您自己的数据并合并现有清单文件 合二为一。在

这些数据或者更确切地说,清单文件可以用来轻松地训练和 评估ASR模型。我们提供一些ASR模型架构,如LAS, TDS和DeepSpeech2以及单独的Pythorch模型都可以设计用于训练。在

经过训练的模型可以在转录服务器中使用,它包括 以及一个简单的Vue.js版前端转录录制的语音 通过麦克风将转录结果与其他模型(可以 在我们的Github存储库中下载)。在

此外,我们还提供了示例代码,如何在ROS中使用不同的ASR模型 尤其是Roboy ROS接口(即主题和消息)。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么会出现这些错误?表达式的非法开始   使用HttpUrlConnection的java测试URL仅适用于前面的www   在大数据集上使用kmeans的java堆外内存   查找Java RandomAccessFile如何以字符形式读取第n个字节   java Android从BroadcastReceiver获取标题和描述   java使用构造函数参数模拟嵌套类并测试方法   正在将Azure Blob项强制转换为Java文件对象   java并行运行testNG套件   java程序在运行时似乎没有进入   贬低Java规则引擎的优点和缺点   文本区域中的java中心文本   java JPA从多个表中选择错误   类Java问题使用类加载器重新加载代码   java如何在Spring非管理类上使用@Value   java(关闭)Gradle导入VS代码失败   java arraylist拆分(“空白”)并计算字数   Android/Java如何在单独的*中调用函数。java文件?   具有基本身份验证的java Apache Camel RSS模块   java为什么程序在出现溢出或下溢时不抛出异常