CNN和RNN的口语识别-改进版本:准确性提高

myspokenlanguagedetection的Python项目详细描述


***version-5发布,提高准确性***
此程序可能需要一分钟左右的时间才能在屏幕上显示结果,
请耐心等待。

口语识别是根据给定的内容和数据集确定和分类自然语言的过程。利用声学模型和语言模型,对
音频文件的数据进行处理,提取有用的特征进行机器学习。
用于口语识别的声学特征即标准特征,如mel频率倒谱系数(mfcc)、移位delta倒谱(sdc),而对于
语言特征,则使用高斯混合模型(gmm)和基于i-向量的框架。

然而,基于提取特征的机器学习过程仍然是一个挑战。
需要改进优化,以便捕获提取的
特征上的嵌入知识。cnn(卷积神经网络)、rnn(递归神经网络)和elm(极限学习机)是一种有效的学习结构,可以用来进行分类和进一步的复杂分析,对训练单个隐层神经网络非常有用。然而,由于输入隐藏层中权值的选择方法,这些模型的学习过程并不完全有效。


myspokenlanguagedetection是一个基于标准特征提取、cnn和rnn的口语识别初步包。以优化方法为基准,通过改变优化过程的选择阶段对其进行改进。结合不同的方法执行选择过程。结果是基于对18种不同语言创建的数据集的口语识别生成的。BR/>结果表明,机器学习的性能与神经网络体系结构的正确性、BR/>和声学模型和语言模型的共存密切相关。BR/> BR/>该版本的MyScript语言检测被训练为检测“法语”、“英语”、“西班牙语”、“BR/>“意大利语”、“Duutsh”、“俄语”,“葡萄牙语”、“瑞典语”和“日语”,以及其他40种语言。我们将完成更多语言的机器培训课程
,同时提高语言识别过程的准确性。


=====
Linux、MacOS和Windows:

-------pip install myspokenlanguagedetection

;或者,要将安装的版本更新到最新版本:
-------pip install-u myspokenlanguagedetection--------

录制文件必须为25秒。或更长的音频和*.wav pcm/lpcm格式,以48 kHz
采样帧和24-32位分辨率或aiff、aiff-c、flac录制:必须是本地flac格式;
不支持ogg-flac。

请查看https://github.com/shahabks/myspokenlanguageid

myspokenlanguagedetection由日本myolution实验室开发。它是mysolution lab新一代语音识别和声学语言建模项目的一部分,计划通过添加更高级的功能来丰富myspokenlanguagedetection的功能。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
算法图形。路径方向Java枚举方向问题无法使用EAST   Java:将字符串转换为特定语言环境   javaspringboot&Thymeleaf为后续调用保存搜索表单的最佳方法   mapreduce程序中未调用java reducer   java如何将url中的Gif文件保存到手机中?   如何在JavaSwing中使用[Esc]键最小化JInternalFrame?   java创建了一个包含100个按钮、80个空按钮和20个随机按钮的网格布局   如何在java中使用数组对2d字符串数组中的每一行进行排序。分类   java无法识别的SSL消息,纯文本连接?例外   为什么Java编译器允许在抛出部分列出方法无法抛出的异常   java将预测数组添加到训练数组   java从Ajax调用获取响应文本   使用改型2的java应用程序等待一分钟后退出