提取自动语音识别(TensorFlow)

automatic-speech-recognition的Python项目详细描述


自动语音识别

本课题的目的是提取语音自动识别的研究。 开始时,可以使用预先训练的模型加载一个随时可用的管道。 从eagerTensorFlow 2.0中获益,并自由监控模型权重、激活或渐变。在

importautomatic_speech_recognitionasasrfile='to/test/sample.wav'# sample rate 16 kHz, and 16 bit depthsample=asr.utils.read_audio(file)pipeline=asr.load('deepspeech2',lang='en')pipeline.model.summary()# TensorFlow modelsentences=pipeline.predict([sample])

我们支持英语(感谢Open Seq2Seq)。 英语基准测试LibriSpeech dev clean的评估结果如下表所示。 作为参考,DeepSpeech(Mozilla)的WER约为7.5%,而最先进的(RWTH亚琛大学)则为2.3% (最近的评估结果可以找到here)。 它们都使用外部语言模型来提高结果。 相比之下,humans达到5.83%here(LibriSpeech dev clean)

Model NameDecoderWER-dev
^{}greedy6.71

很快就会发现,您需要稍微调整一下管道。 看看CTC Pipeline。 管道负责连接一个神经网络模型 所有非差分变换(特征提取或预测解码)。 管道组件是独立的。 您可以根据需要调整它们,例如使用更复杂的特征提取, 不同的数据扩充,或添加语言模型解码器(静态n-gram或巨型变形金刚)。 您可以更像使用Strategy分发培训, 或者尝试使用mixed precision策略。在


^{pr2}$

安装

您可以使用pip:

pip install automatic-speech-recognition

否则,请克隆代码并通过conda创建新环境:

git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git
conda env create -f=environment.yml     # or use: environment-gpu.yml
conda activate Automatic-Speech-Recognition

参考文献

基础知识库:

此外,您可以使用一些关键短语来探索GitHub,比如ASRDeepSpeech或{}。 列表wer_are_we,一种跟踪最新技术的尝试, 也可能有帮助。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Selenium Webdrive(Java)使用名称的预定义部分生成变量   java如何在Android Studio中创建水平滚动的标题?   Java中的层次枚举   java从响应获取对象列表   从向后兼容的可序列化对象中提取java超类   使用放大按钮在滚动条上显示java ChangeListener   java Jsp默认日期格式   java广播接收器未接收   当字符不是来自英文字母表时,java Datadog字符串编码   java GWT将字符串转换为小数点后2位的浮点值   java Android SMS API   java在codenameone中同时滚动X和Y窗格   Java应用程序使用Datacap WTM服务中止ibm data studio批处理   java如何在Struts配置文件中配置文件夹中的文件路径