mecab新ogd日文文本规范化器
neologdn的Python项目详细描述
新记录
在这一点上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,199691FC5C4B5B315AF954BD6868D5656F42904AC/68747474707332222F7747472732d63692E62672F6767266666666665676767616D79756B69646E666E6666F6E6E6F6F6C6566F6F6C66767646E2E6767673667366736673636363636363636363636366767676E6E6E66572"/> >
neologdn是一个日语文本规范化程序,用于 mecab neologd
标准化基于新ogd的规则: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
欢迎投稿!
注意:安装此模块需要C++11编译器。
安装
$ pip install neologdn
用法
importneologdnneologdn.normalize("ハンカクカナ")# => 'ハンカクカナ'neologdn.normalize("全角記号!?@#")# => '全角記号!?@#'neologdn.normalize("全角記号例外「・」")# => '全角記号例外「・」'neologdn.normalize("長音短縮ウェーーーーイ")# => '長音短縮ウェーイ'neologdn.normalize("チルダ削除ウェ~∼∾〜〰~イ")# => 'チルダ削除ウェイ'neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")# => 'いろんなハイフン-'neologdn.normalize(" PRML 副 読 本 ")# => 'PRML副読本'neologdn.normalize(" Natural Language Processing ")# => 'Natural Language Processing'neologdn.normalize("かわいいいいいいいいい",repeat=6)# => 'かわいいいいいい'neologdn.normalize("無駄無駄無駄無駄ァ",repeat=1)# => '無駄ァ'
基准
# Sample code from# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlastimportnormalize_neologd%timeitnormalize(normalize_neologd.normalize_neologd)# => 1 loop, best of 3: 18.3 s per loopimportneologdn%timeitnormalize(neologdn.normalize)# => 1 loop, best of 3: 9.05 s per loop
neologdn比示例代码快2倍。
详情如下: https://github.com/ikegami yukino/neologdn/blob/master/benchmark/benchmark.ipynb
许可证
apache软件许可证。