一种工具,用于检测一小段Unicode文本的语言,而不依赖于其他库。

lang-detect的Python项目详细描述


#lang detect:检测语言的工具

在没有任何依赖关系的情况下检测一小段unicode文本的语言 去其他图书馆。

目前我们支持检测de,en,es,fr,it,ja,nl,pl,ru,zh hans, Zh Hant和Zh Yue。

经过简单的测试,我们发现长句的效果更好。

##方法

我们关注Unicode编码中的基本多语言平面,以及当前 语言支持集可以扩展。

对于每种语言,我们使用统一格式的ngram向量来表示语言。 本身。这个向量可以在数据文件夹中看到。

当我们检测到一个文本时,我们为该文本生成统一的ngram向量,并且 只是比较文本向量和 语言载体。

为了得到语言向量,我们使用维基百科上的专题文章作为语料库。

##用法

CD到项目根目录

bin/lang在此处检测您的句子

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java OnResizeListener或OnDrawListener或类似的东西   java Orika映射嵌套子列表   保存时java Heroku请求超时代码H12   数据库在Java中出现socket读取超时异常的原因是什么?   java如何更改来自Sqlite数据库的特定数据在Listview中的行颜色   java JAXB解组器无法正确处理XML中的列表   java Android日期时区让我抓狂   java不透明属性在Swing中如何工作?   eclipse从JavaEE代码生成流程图   java如何在Hibernate中从相关表中获取计数   java Glassfish部署了项目的依赖项库   java使内容适合JavaFx中的WebView   java不满意的链接错误libcrypto。所以1.0.0   循环中java数组的使用   java找出哪个包调用服务