用于在打开的语音语料库上执行操作的CLI

openspeechcorpus的Python项目详细描述


开放式语音语料库CLI

此存储库包含从下载音频数据所需的代码 openspeechcorpus.com

到目前为止,开放式语音语料库由三个亚组组成:

  • 故事集:一个基于拉丁美洲短篇小说阅读的众包语料库
  • 失语症:一个基于单词的众包语料库,分为4个难度等级
  • 孤立词:基于孤立词的众包语料库

要从故事项目下载文件,请使用

ops  \
    --output_folder tales/ \
    --output_file tales.txt  \
    --corpus tales

要从独立单词项目下载文件,请使用

^{pr2}$

要从失语症项目下载文件,请使用

ops  \
    --output_folder aphasia/ \
    --output_file aphasia.txt  \
    --corpus aphasia

参数Usage

--download_all

您可以使用标志--download_all下载整个语料库

ops  \
    --output_folder aphasia/ \
    --output_file aphasia.txt  \
    --corpus aphasia \
    --download_all

--from和{}

默认情况下,页面大小为500,要修改它,请使用参数--from和{},即:

ops  \
    --from 500\
    --to 1000\
    --output_folder aphasia/ \
    --output_file aphasia.txt  \
    --corpus aphasia

如果将标志--download_all与标志--from一起使用,则进程将在指定的参数from中使用 第500页

--extra_query_params

我们还支持一个参数--extra_query_params,它覆盖--from--to和{}参数 并下载body响应中的所有文件,您必须定义--corpus参数

ops  \
    --output_folder aphasia/ \
    --output_file aphasia_letters.txt  \
    --corpus aphasia \
    --extra_query_params "level_sentence__id__gte=846&level_sentence__id__lte=870"

递归转换

开放语音语料库以mp4格式存储其文件,这对于大多数音频处理任务来说是不需要的。转换 将文件转换成wav格式,首先安装ffmpeg,然后可以执行 recursive_convert实用程序,它接收mp4文件的源_文件夹作为第一个参数,并作为第二个参数接收 输出文件夹,即:

recursive_convert aphasia aphasia_wav

CMU Sphinx配置

开放式语音语料库还定义了一些脚本来生成配置 CMU Sphinx。在

首先用sphinx_train命令初始化一个项目

sphinxtrain -t simple_words setup

要生成配置,请使用命令configure_sphinx,该命令创建转录、文件ID、填充符和 dic文件。在

configure_sphinx simple_words \
    --transcription_file words.txt \
    --etc_folder simple_words/etc \
    --test_size 0.5

此外,还需要定义一个语言模型,该模型接收DB_名称和基本项目文件夹

generate_language_model simple_words simple_words

要删除配置文件,请使用命令clean_previous_configuration

clean_previous_configuration simple_words --etc_folder simple_words/etc/

HTK配置

{a4}还定义了一些开放语音库}脚本

生成单词语法用法

configure_htk \
    --transcription_file words.txt \
    --project_folder htk_words \
    --wav_folder words_wav \
    htk_words

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java查询,该查询应返回特定相关实体的实体   java创建了两个可运行的JAR,它们使用相同的库而不需要两次   java swing应用程序如何设置面板中组件的高度(和宽度)   在fat jar中找不到java JasperReport文件错误   kotlin在java中如何称呼这个构造函数?   java为什么被零除是一个不可恢复的问题?   java为SUTime添加用于解析季度的自定义规则   java merge 2带所有元素的排序列表   从字符串StringUtils Java中提取数字   java ForLoops最大和最小数   java我可以为嵌入式tomcat 8定义始终保持活动状态的最小executer线程数吗?   java当metod返回ResponseEntry<Resource>抛出错误时,如何返回ModelandView?   java片段翻译和电话定位错误   javagwt:如何让regex(模式和匹配器)在客户端工作   java EAR文件和“WebSphere增强的EAR”之间有什么区别?