对齐可比语料库的工具

yalign的Python项目详细描述


关于

yallign是从可比语料库中提取平行句子的工具。

Statistical Machine Translation依赖于parallel corpora(例如。europarl)用于训练翻译模型。然而,这些语料库是有限的,需要时间来创建。yalgign的设计目的是通过从comparable corpora中查找与翻译匹配的句子来自动执行此过程。这为从翻译文档和网络等来源获取平行语料库开辟了途径。

安装

yaign要求您安装scikit-learn

之后,您可以通过pip:

sudo pip install yalign

用法

首先我们需要下载并解压英语到西班牙语的模式。

wget http://yalign.machinalis.com/models/0.1/en-es.tar.gz
tar -xvzf en-es.tar.gz

现在,我们可以使用yalgign align脚本和英语到西班牙语模型来对齐两个网页。

yalign-align en-es http://en.wikipedia.org/wiki/Antiparticle http://es.wikipedia.org/wiki/Antipart%C3%ADcula

Yalgin不限于任何一种语言对。通过创建自己的模型,可以对齐任意两种语言。有关如何使用yalgin和yalgin实现的更多详细信息,请read the docs

yalgign是一个Machinalis项目。 您可以查看我们的其他开源贡献here

签名团队:

安德鲁·维恩 冈萨洛·加西亚·贝罗塔伦 拉斐尔卡拉斯科萨
艾利斯和拉沃斯 劳拉·阿隆索·阿莱曼尼

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在PageLoad上单击复选框时,java jQuery使Div可见(如果已选中)   java将JavaFX控制器链接在一起的最佳实践是什么?   如何在Scala中公开Kafka(带分区的commitSync)的Java方法?   使用xml输出程序创建xml文件时出现java异常   多线程Java:wait()是否从同步块释放锁   java如何在jersey应用程序上运行集成测试,而不必为每个测试重新启动服务器?   java为不同的列提供不同的网格颜色   java如何正确停止ServerSocket线程?关闭socket失败   java如何在Spring引导项目中获取connectTimeout值?   java lwjgl 3:没有为当前线程设置GLCapabilities实例。glCreateProgram()   javascript无法在片段活动中从firebase获取值和图像列表   java JTable仅在调用GUI()的新实例时刷新;   JavaFX ListView中的java图像   java Android:在循环中漫游图像   java Tomcat 7不在Netbeans上运行