提取自动语音识别(TensorFlow)
automatic-speech-recognition的Python项目详细描述
自动语音识别
本课题的目的是提取语音自动识别的研究。
开始时,可以使用预先训练的模型加载一个随时可用的管道。
从eagerTensorFlow 2.0
中获益,并自由监控模型权重、激活或渐变。在
importautomatic_speech_recognitionasasrfile='to/test/sample.wav'# sample rate 16 kHz, and 16 bit depthsample=asr.utils.read_audio(file)pipeline=asr.load('deepspeech2',lang='en')pipeline.model.summary()# TensorFlow modelsentences=pipeline.predict([sample])
我们支持英语(感谢Open Seq2Seq)。 英语基准测试LibriSpeech dev clean的评估结果如下表所示。 作为参考,DeepSpeech(Mozilla)的WER约为7.5%,而最先进的(RWTH亚琛大学)则为2.3% (最近的评估结果可以找到here)。 它们都使用外部语言模型来提高结果。 相比之下,humans达到5.83%here(LibriSpeech dev clean)
Model Name | Decoder | WER-dev |
---|---|---|
^{ | greedy | 6.71 |
很快就会发现,您需要稍微调整一下管道。 看看CTC Pipeline。 管道负责连接一个神经网络模型 所有非差分变换(特征提取或预测解码)。 管道组件是独立的。 您可以根据需要调整它们,例如使用更复杂的特征提取, 不同的数据扩充,或添加语言模型解码器(静态n-gram或巨型变形金刚)。 您可以更像使用Strategy分发培训, 或者尝试使用mixed precision策略。在
^{pr2}$
安装
您可以使用pip:
pip install automatic-speech-recognition
否则,请克隆代码并通过conda创建新环境:
git clone https://github.com/rolczynski/Automatic-Speech-Recognition.git conda env create -f=environment.yml # or use: environment-gpu.yml conda activate Automatic-Speech-Recognition
参考文献
基础知识库:
- 百度-DeepSpeech2 - A PaddlePaddle implementation of DeepSpeech2 architecture for ASR
- 英伟达-Toolkit for efficient experimentation with Speech Recognition, Text2Speech and NLP
- {亚琛大学
- 张量流-The implementation of DeepSpeech2 model
- Mozilla-DeepSpeech - A TensorFlow implementation of Baidu's DeepSpeech architecture
- Espnet-End-to-End Speech Processing Toolkit
- 肖恩·纳伦-Speech Recognition using DeepSpeech2
此外,您可以使用一些关键短语来探索GitHub,比如ASR
、DeepSpeech
或{
- 项目
标签: