TEA翻译引擎架构师

pangeamt-tea的Python项目详细描述


翻译引擎架构师

创建翻译引擎的命令行工具。在

安装

首先安装pipx,然后:

pipx install pangeamt-tea

使用

步骤1:创建新项目

^{pr2}$

此命令将创建项目目录结构:

├── customer_es_en_automotion_0.0.1
│   ├── config.yml
│   └── data

然后在目录中输入

cd customer_es_en_automotion_0.0.1

步骤2:配置

标记器

标记器可以应用于源和目标

tea tokenizer --src mecab  --tgt moses

要列出所有可用的标记器:

tea tokenizer --list 

特鲁卡斯尔

tea truecaser --src --tgt

BPE

tea bpe -s -t

处理器

tea config processors -s "{processors}"

作为处理器是预处理和后处理的列表。在

第三步:

将一些多语言资源(.tmx,双语文件,.af)复制到“data”目录中

第4步:运行

清理通过规范化器和验证器的数据:

tea workflow clean -n {clean_th} -d

清洁线程数。在

预处理数据(在train、dev或test中拆分数据、标记化、BPE):

tea workflow prepare -n {prepare_th} -s 3

正在准备线程数。在

培训模式

tea workflow train --gpu 0

评估模型

tea workflow eval --step {step} --src file.src --ref file.tgt --log file.log --out file.out --gpu 0

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像