基于快速文本的新闻语言检测
fastlangid的Python项目详细描述
快速语言ID
语言识别包括繁体中文和简体中文。在
为什么?这个包裹是给谁的
这是一种语言识别语言,与最初的fasttext模型(lid.176.ftz)相比,日语、韩语和中文的准确性更高。此软件包还包括简体中文和繁体中文标识。在
我们能够获得更高的准确性,包括一个额外的语言识别模型,以处理低置信分数的日语,韩语,中文。在
补充模型的训练数据来自公共爬网语料库和Currents API内部语言数据集。在
我们希望在未来支持粤语。如果您愿意提供相关语料库,请随时与我们联系。在
有关详细信息,请参见fasttext_issues.py
安装
$ pip install fastlangid
支持的语言
支持177种语言。相应语言的ISO代码如下所示。在
^{pr2}$参考文献
用子词信息充实词向量
[1]p.Bojanowski*,E.Grave*,A.Joulin,T.Mikolov,Enriching Word Vectors with Subword Information
@article{bojanowski2016enriching,
title={Enriching Word Vectors with Subword Information},
author={Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.04606},
year={2016}
}
高效文本分类的窍门
[2]A.Joulin,E.Grave,p.Bojanowski,T.Mikolov,Bag of Tricks for Efficient Text Classification
@article{joulin2016bag,
title={Bag of Tricks for Efficient Text Classification},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.01759},
year={2016}
}
在快速文本.zip:压缩文本分类模型
[3]A.Joulin,E.Grave,p.Bojanowski,M.Douze,H.Jégou,T.Mikolov,FastText.zip: Compressing text classification models
@article{joulin2016fasttext,
title={FastText.zip: Compressing text classification models},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Douze, Matthijs and J{\'e}gou, H{\'e}rve and Mikolov, Tomas},
journal={arXiv preprint arXiv:1612.03651},
year={2016}
}
- 项目
标签: