TEA翻译引擎架构师
pangeamt-tea的Python项目详细描述
翻译引擎架构师
创建翻译引擎的命令行工具。在
安装
首先安装pipx,然后:
pipx install pangeamt-tea
使用
步骤1:创建新项目
^{pr2}$此命令将创建项目目录结构:
├── customer_es_en_automotion_0.0.1
│ ├── config.yml
│ └── data
然后在目录中输入
cd customer_es_en_automotion_0.0.1
步骤2:配置
标记器
标记器可以应用于源和目标
tea tokenizer --src mecab --tgt moses
要列出所有可用的标记器:
tea tokenizer --list
特鲁卡斯尔
tea truecaser --src --tgt
BPE
tea bpe -s -t
处理器
tea config processors -s "{processors}"
作为处理器是预处理和后处理的列表。在
第三步:
将一些多语言资源(.tmx,双语文件,.af)复制到“data”目录中
第4步:运行
清理通过规范化器和验证器的数据:
tea workflow clean -n {clean_th} -d
清洁线程数。在
预处理数据(在train、dev或test中拆分数据、标记化、BPE):
tea workflow prepare -n {prepare_th} -s 3
正在准备线程数。在
培训模式
tea workflow train --gpu 0
评估模型
tea workflow eval --step {step} --src file.src --ref file.tgt --log file.log --out file.out --gpu 0
- 项目
标签: