kakasi-kana汉字简单倒排库的python实现

pykakasi的Python项目详细描述


概述

Documentation StatusPyPI versionTravis-CIAzure-PipelinesCoverage status

pykakasi是一个自然语言处理库,用于将假名-汉字-日语从句转换为 python中带分隔符的罗马假名。 这是用python改进的kakasi库(原来是用c编写的)。

皮卡卡西一瞥

安装:

pip install pykakasi

示例源代码:

$ python
>>> import pykakasi
>>>
>>> text = u"かな漢字交じり文"
>>> kakasi = pykakasi.kakasi()
>>> kakasi.setMode("H","a") # Hiragana to ascii, default: no conversion
>>> kakasi.setMode("K","a") # Katakana to ascii, default: no conversion
>>> kakasi.setMode("J","a") # Japanese to ascii, default: no conversion
>>> kakasi.setMode("r","Hepburn") # default: use Hepburn Roman table
>>> kakasi.setMode("s", True) # add space, default: no separator
>>> kakasi.setMode("C", True) # capitalize, default: no capitalize
>>> conv = kakasi.getConverter()
>>> result = conv.do(text)
>>> print(result)
kana Kanji Majiri Bun
>>>
>>>
>>> wakati = pykakasi.wakati()
>>> conv = wakati.getConverter()
>>> result = conv.do(text)
>>> print(result)
かな 漢字 交じり 文
>>>
>>> kakasi = pykakasi.kakasi()
>>> kakasi.setMode("J","aF") # Japanese to furigana
>>> kakasi.setMode("H","aF") # Japanese to furigana
>>> conv = kakasi.getConverter()
>>> result = conv.do(text)
>>> print(result)
かな[kana] 漢字[Kanji] 交じり[Majiri] 文[Bun]
>>>

您可以使用“h”、“k”、“a”中的输出模式 “平假名”、“片假名”和“字母表”。 对于输入,您可以使用“j”表示“日语”,即 汉字、片假名和平假名的混合体。 还有“h”、“k”的值,意思是“平假名”和“片假名”。 您可以使用“赫本”,“昆瑞”或“护照”作为模式“R”,罗马表开关。 另外“S”用于分隔符开关,“C”用于大写开关。 “S”表示分离器存储选项。

wakati是kakasi的wakati-gaki选项的实现。

文档

手册放在readthedocs上。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在BFS中创建接受用户输入的树   chef::Exception::RecipeNotFound找不到cookbook java的配方默认值   java for循环算法不更新变量   java如何启用以cookie为条件的按钮?   maven项目中的java获取错误:FirefoxDriver无法解析为类型   瓦丁不能铸造java。util。集合$EmptySet到java。util。哈希集   java视图页面未显示从控制器传递的数据   java数据输入流是否跳过字符?   java Basic SpringMVC+Tomcat问题   java JFreeChart为时间创建自定义值轴   用于实现toFindResult()的正则表达式Java Matcher类   java如何使用GridBagLayout维护jpanel的维度大小?   java如何将工作流部署到openkm?   JavaJSON:如何为未从列表中选择的变量赋值?