非常紧凑的日本代币器
tinysegmenter的Python项目详细描述
“python中的tinysegenter”是由TinySegmenter的masato hagiwara编写的python port,它是一个非常紧凑的日语标记器,最初由taku kudo先生用javascript编写。
这个图书馆终于由杰汉包装好了。它导致了这个分叉,因为Masako Hagiwara没有回复电子邮件,也没有打包补丁。 因此无法提交到上游。但这是一个友好的叉子,欢迎Masako Hagiwara收回他的维修 项目。 目前,我(杰汉)负责维修,所以请把这个新的website称为正式的,并且 在那里指挥任何新的patch。我会跟进补丁和错误报告,但可能不会保持积极的发展。任何想要的人 改进图书馆欢迎参与,并将欣然授予提交者权利。
它适用于Python2.6或更高版本(也适用于Python3)。
下载并安装
这个库可以以常见的方式安装:使用setup.py,作为pip包… 有关详细信息,请参阅包中的INSTALL文件。
如果您只想下载源包,请参考pypi存储库:http://pypi.python.org/pypi/tinysegmenter
开发版本可以在git存储库中匿名下载:
$ git clone git://git.tuxfamily.org/gitroot/tinysegmente/tinysegmenter.git
用法
直接使用示例代码:
> import tinysegmenter > segmenter = tinysegmenter.TinySegmenter() > print(' | '.join(segmenter.tokenize(u"私の名前は中野です"))) 私 | の | 名前 | は | 中野 | です
tinysegenter的接口与NLTK的TokenizerI类兼容,尽管分发不直接依赖于nltk。 这里有一种方法可以在nltk中将其用作标记器(多个基类的顺序很重要):
import nltk.tokenize.api class myTinySegmenter(tinysegmenter.TinySegmenter, nltk.tokenize.api.TokenizerI): pass segmenter = myTinySegmenter() # This segmenter can be used any place which expects a NLTK's TokenizerI subclass.
有关nltk(natural language toolkit模块)的更多信息,请参见:http://nltk.org/api/nltk.tokenize.html#nltk.tokenize.api.TokenizerI
联系、错误和贡献
所有的bug、补丁、问题等都可以发送到位于zemarmot的tinysegment。
许可证
此包是在新的bsd许可证下分发的(请参见COPYING文件)。