用于在打开的语音语料库上执行操作的CLI
openspeechcorpus的Python项目详细描述
开放式语音语料库CLI
此存储库包含从下载音频数据所需的代码 openspeechcorpus.com
到目前为止,开放式语音语料库由三个亚组组成:
- 故事集:一个基于拉丁美洲短篇小说阅读的众包语料库
- 失语症:一个基于单词的众包语料库,分为4个难度等级
- 孤立词:基于孤立词的众包语料库
要从故事项目下载文件,请使用
ops \ --output_folder tales/ \ --output_file tales.txt \ --corpus tales
要从独立单词项目下载文件,请使用
^{pr2}$要从失语症项目下载文件,请使用
ops \ --output_folder aphasia/ \ --output_file aphasia.txt \ --corpus aphasia
参数Usage
--download_all
您可以使用标志--download_all
下载整个语料库
ops \ --output_folder aphasia/ \ --output_file aphasia.txt \ --corpus aphasia \ --download_all
--from
和{}
默认情况下,页面大小为500,要修改它,请使用参数--from
和{
ops \ --from 500\ --to 1000\ --output_folder aphasia/ \ --output_file aphasia.txt \ --corpus aphasia
如果将标志--download_all
与标志--from
一起使用,则进程将在指定的参数from
中使用
第500页
--extra_query_params
我们还支持一个参数--extra_query_params
,它覆盖--from
、--to
和{--corpus
参数
ops \ --output_folder aphasia/ \ --output_file aphasia_letters.txt \ --corpus aphasia \ --extra_query_params "level_sentence__id__gte=846&level_sentence__id__lte=870"
递归转换
开放语音语料库以mp4格式存储其文件,这对于大多数音频处理任务来说是不需要的。转换
将文件转换成wav格式,首先安装ffmpeg,然后可以执行
recursive_convert
实用程序,它接收mp4文件的源_文件夹作为第一个参数,并作为第二个参数接收
输出文件夹,即:
recursive_convert aphasia aphasia_wav
CMU Sphinx配置
开放式语音语料库还定义了一些脚本来生成配置 CMU Sphinx。在
首先用sphinx_train
命令初始化一个项目
sphinxtrain -t simple_words setup
要生成配置,请使用命令configure_sphinx
,该命令创建转录、文件ID、填充符和
dic文件。在
configure_sphinx simple_words \ --transcription_file words.txt \ --etc_folder simple_words/etc \ --test_size 0.5
此外,还需要定义一个语言模型,该模型接收DB_名称和基本项目文件夹
generate_language_model simple_words simple_words
要删除配置文件,请使用命令clean_previous_configuration
clean_previous_configuration simple_words --etc_folder simple_words/etc/
HTK配置
{a4}还定义了一些开放语音库}脚本
生成单词语法用法
configure_htk \ --transcription_file words.txt \ --project_folder htk_words \ --wav_folder words_wav \ htk_words
- 项目
标签: