猜猜文本的自然语言

guess-language的Python项目详细描述


尝试确定选定Unicode(UTF-8)文本的自然语言。

基于guesslanguage.cpp 作者Jacob R Rideout for KDE,其本身基于 Language::Guess作者:Maciej Ceglowski。

检测超过60种语言-列出在trigrams中的所有语言 目录加上日语,中文,韩语和希腊语。

guess_语言使用基于示例文本中的字符集和三角图的启发式方法 检测语言。它对较长的样本更有效,如果 示例文本包括标记,如HTML标记。

用法

主入口点都以单个字符串作为输入并返回一个语言标识符。 字符串必须是Unicode或UTF-8文本。语言标识符可以是语言名 在英语中,两个或三个字母的IANA语言代码、一个语言标识或一个包含 三个密码。

主要入口点和返回值如下:

guessLanguage(txt) - IANA language code
guessLanguageTag(txt) - IANA language code (same as guessLanguage)
guessLanguageName(txt) - Language name in English
guessLanguageId(txt) - language ID
guessLanguageInfo(txt) - tuple of (IANA code, id, name)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Intellij通过方法中的包查找用法   java中VS代码和打包命名的问题   将java CMS功能集成到具有高度动态内容的网站(Lucene/Mysql/Nosql)的策略   oracle的java类强制转换异常。jdbc。驾驶员OracleConnection   字节码向JVM添加上指令   如何在抽象类中执行java方法?   java是否可以在apache访问日志中排除指定的GET参数?(作者:W7开发环境)   java如何获取已安装音频播放器的列表?   尝试向HS学生展示如何使用Java访问MS数据库   使用正则表达式java对给定行中的特定字符串进行计数   java JOOQ Select查询中的Select计数   方法Java,如何从二维双精度数组中找到特定值?   获取图像URL的java正则表达式   java在切换到新的窗口驱动程序后找不到元素