基于快速文本的新闻语言检测

fastlangid的Python项目详细描述


快速语言ID

语言识别包括繁体中文和简体中文。在

为什么?这个包裹是给谁的

这是一种语言识别语言,与最初的fasttext模型(lid.176.ftz)相比,日语、韩语和中文的准确性更高。此软件包还包括简体中文和繁体中文标识。在

我们能够获得更高的准确性,包括一个额外的语言识别模型,以处理低置信分数的日语,韩语,中文。在

补充模型的训练数据来自公共爬网语料库和Currents API内部语言数据集。在

我们希望在未来支持粤语。如果您愿意提供相关语料库,请随时与我们联系。在

有关详细信息,请参见fasttext_issues.py

安装

$ pip install fastlangid

支持的语言

支持177种语言。相应语言的ISO代码如下所示。在

^{pr2}$

参考文献

用子词信息充实词向量

[1]p.Bojanowski*,E.Grave*,A.Joulin,T.Mikolov,Enriching Word Vectors with Subword Information

@article{bojanowski2016enriching,
  title={Enriching Word Vectors with Subword Information},
  author={Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1607.04606},
  year={2016}
}

高效文本分类的窍门

[2]A.Joulin,E.Grave,p.Bojanowski,T.Mikolov,Bag of Tricks for Efficient Text Classification

@article{joulin2016bag,
  title={Bag of Tricks for Efficient Text Classification},
  author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1607.01759},
  year={2016}
}

在快速文本.zip:压缩文本分类模型

[3]A.Joulin,E.Grave,p.Bojanowski,M.Douze,H.Jégou,T.Mikolov,FastText.zip: Compressing text classification models

@article{joulin2016fasttext,
  title={FastText.zip: Compressing text classification models},
  author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Douze, Matthijs and J{\'e}gou, H{\'e}rve and Mikolov, Tomas},
  journal={arXiv preprint arXiv:1612.03651},
  year={2016}
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JavaFX SwingWorker等价物?   java如何检查一个字符串只包含数字和一个小数点?   java遇到了异常组织。阿帕奇。卡塔琳娜。LifecycleException:无法启动组件   java如何从日期格式获取最低计时单位?   java应用服务器与开发过程的集成   java我无法运行Junit测试   无法在java多线程处理中维护生产者任务的顺序   java如何在CLI应用程序中“拦截”Ctrl+C?   java如何使用JSch进行原子SFTP文件传输,以便在写入过程完成之前无法访问该文件?   java当用户摆弄html范围滑块时,如何更改内容(文本)?   如何在Java中向现有文件追加文本?   JUnit测试中的java模拟Apache驼峰位置   java Maven更新项目和依赖项