非常紧凑的日本代币器

tinysegmenter的Python项目详细描述


“python中的tinysegenter”是由TinySegmenter的masato hagiwara编写的python port,它是一个非常紧凑的日语标记器,最初由taku kudo先生用javascript编写。

这个图书馆终于由杰汉包装好了。它导致了这个分叉,因为Masako Hagiwara没有回复电子邮件,也没有打包补丁。 因此无法提交到上游。但这是一个友好的叉子,欢迎Masako Hagiwara收回他的维修 项目。 目前,我(杰汉)负责维修,所以请把这个新的website称为正式的,并且 在那里指挥任何新的patch。我会跟进补丁和错误报告,但可能不会保持积极的发展。任何想要的人 改进图书馆欢迎参与,并将欣然授予提交者权利。

它适用于Python2.6或更高版本(也适用于Python3)。

作者

查看AUTHORS文件中的所有作者和贡献者。

下载并安装

这个库可以以常见的方式安装:使用setup.py,作为pip包… 有关详细信息,请参阅包中的INSTALL文件。

如果您只想下载源包,请参考pypi存储库:http://pypi.python.org/pypi/tinysegmenter

开发版本可以在git存储库中匿名下载:

$ git clone git://git.tuxfamily.org/gitroot/tinysegmente/tinysegmenter.git

或在线浏览:http://git.tuxfamily.org/tinysegmente/tinysegmenter/

用法

直接使用示例代码:

> import tinysegmenter
> segmenter = tinysegmenter.TinySegmenter()
> print(' | '.join(segmenter.tokenize(u"私の名前は中野です")))
私 | の | 名前 | は | 中野 | です

tinysegenter的接口与NLTKTokenizerI类兼容,尽管分发不直接依赖于nltk。 这里有一种方法可以在nltk中将其用作标记器(多个基类的顺序很重要):

import nltk.tokenize.api

class myTinySegmenter(tinysegmenter.TinySegmenter, nltk.tokenize.api.TokenizerI):
    pass
segmenter = myTinySegmenter()
# This segmenter can be used any place which expects a NLTK's TokenizerI subclass.

有关nltk(natural language toolkit模块)的更多信息,请参见:http://nltk.org/api/nltk.tokenize.html#nltk.tokenize.api.TokenizerI

联系、错误和贡献

所有的bug、补丁、问题等都可以发送到位于zemarmot的tinysegment。

许可证

此包是在新的bsd许可证下分发的(请参见COPYING文件)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java中char的用途   swing修复,以便显示可以同时显示十进制数和整数   java给定一个场景,找到拥有的JFXPanel   java JPA 2标准获取路径导航   java如何用JUnit测试这个类?   JSF中的java请求作用域   Spring云Zuul代理背后的java Spring OAuth授权服务器   java限制聚合返回的存储桶大小   java如何在安卓应用程序中请求超级su权限   防止超级关键字的java Checkstyle规则   java 安卓。应用程序。应用程序无法强制转换到安卓。应用程序。在回收器适配器中使用FragmentManager时的活动   使用Java的Twitter广告API   切换到4.0.1版本后,java“JavaMailSenderImpl无法解析为类型”   java没有getter方法可用于名称下bean的属性   java 0/1背包堆空间   java我无法使用断点进行调试   Jar文件名表单java代码   java调用从扩展活动的MainActivity类扩展片段的类片段