3564语言对的字转换器

word2word的Python项目详细描述


imageimageimageimage

word2单词

为3564种语言对提供易于使用的逐字翻译。

主要功能

  • 大量免费提供的词到词翻译 用于跨62种唯一语言的3564个语言对。
  • 易于使用的python接口。
  • 使用一种有效的方法构造,该方法通过 熟练的双语人类贴标员。

用法

首先,使用pip

安装包
pip install word2word

git clone https://github.com/Kyubyong/word2word.git
python setup.py install

然后,在python中,下载模型并检索前5个单词的翻译 所需语言的任何给定单词:

fromword2wordimportWord2worden2fr=Word2word("en","fr")print(en2fr("apple"))# out: ['pomme', 'pommes', 'pommier', 'tartes', 'fleurs']

gif

支持的语言

我们在所有可用对中提供top-k逐字翻译 来自OpenSubtitles2018。 在62种独特的语言中,总共有3564个语言对。

提供完整的列表here

方法论

我们的方法基于 平行语料库中跨语言词对的共现统计。 此外,我们还引入了一个校正项,用于控制任何混杂效应 来自同一句子中的其他源词。 结果方法是一种高效且可伸缩的方法,它允许我们 从任意给定的平行语料库中构造大型双语词典。

有关详细信息,请参阅our paper draft的方法部分。

与现有软件

的比较

一个流行的公开的词到词翻译数据集是 ^{},其中 包括110本双语词典,这些词典是从Facebook的内部翻译工具构建的。 与muse相比,word2word不依赖翻译软件 并且包含更大的语言对集(3564)。 word2word还提供最多10万字的top-k字对字翻译 (与muse中的5~10k个单词相比)可以应用于任何语言对 有一个平行的语料库。

在质量方面,虽然很难直接比较这两种方法, 我们确实注意到,缪斯的双语词典涉及非欧洲语言可能没有那么有用。 对于英语越南语,我们发现1500个单词对中有80%是 验证集的单词是一对的两倍 (例如深红色、铃木、兰德尔·兰德尔)。

有关详细信息,请参见our paper draft中的附录。

参考文献

如果您使用我们的软件进行研究,请引用:

@misc{word2word2019,author={Park, Kyubyong and Kim, Dongwoo and Choe, Yo Joong},title={word2word},year={2019},publisher={GitHub},journal={GitHub repository},howpublished={\url{https://github.com/Kyubyong/word2word}}}

(稍后我们可能会使用our paper report引用更新此bibtex。)

我们所有的逐字翻译都是从公开的 OpenSubtitles2018数据集:

@article{opensubtitles2016,title={Opensubtitles2016: Extracting large parallel corpora from movie and tv subtitles},author={Lison, Pierre and Tiedemann, J{\"o}rg},year={2016},publisher={European Language Resources Association}}

作者

Kyubyong ParkDongwoo Kim,和 YJ Choe

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何用新列表替换ListView的列表   swing Java JFrame布局   java JNativehook未捕获密码   java JPA仅获取一级关联   java KeyListener是否停止使用动作或鼠标Listener?   shell如何在Ubuntu中安装java   java如何通过使用会话检索数据来跳过空值。冬眠   java如何在jsp中获取列表   java Android仅在位置(0,0)上缩放,而不是在整个图像上缩放   Java for循环格式化控制台   协议缓冲区Protobuf Java不区分大小写映射?   java模拟对象,并将它们分配给方法中的实例和静态变量   java是否可以在执行时看到对对象的所有引用?   wcf Java客户端和InstanceContextMode   java我在XMLGregorianCalendar中的“20170526T04:08:00.000+05:30”中有一个日期,我需要将其转换为20170526T04:08:00.000z   java如何让两个小程序共享字段   java保留CSS注释而不修改YUI压缩器中的内容   java Android(Kotlin)具有非字符串基元类型的双向数据绑定   Java swing:warning组合框是原始类型。对泛型类型JComboBox<E>的引用应参数化