一种工具,用于检测一小段Unicode文本的语言,而不依赖于其他库。
lang-detect的Python项目详细描述
#lang detect:检测语言的工具
在没有任何依赖关系的情况下检测一小段unicode文本的语言 去其他图书馆。
目前我们支持检测de,en,es,fr,it,ja,nl,pl,ru,zh hans, Zh Hant和Zh Yue。
经过简单的测试,我们发现长句的效果更好。
##方法
我们关注Unicode编码中的基本多语言平面,以及当前 语言支持集可以扩展。
对于每种语言,我们使用统一格式的ngram向量来表示语言。 本身。这个向量可以在数据文件夹中看到。
当我们检测到一个文本时,我们为该文本生成统一的ngram向量,并且 只是比较文本向量和 语言载体。
为了得到语言向量,我们使用维基百科上的专题文章作为语料库。
##用法
CD到项目根目录
bin/lang在此处检测您的句子