mecab新ogd日文文本规范化器

neologdn的Python项目详细描述


新记录

在这一点上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,我的网站上,199691FC5C4B5B315AF954BD6868D5656F42904AC/68747474707332222F7747472732d63692E62672F6767266666666665676767616D79756B69646E666E6666F6E6E6F6F6C6566F6F6C66767646E2E6767673667366736673636363636363636363636366767676E6E6E66572"/> pyversion > 最新版本

neologdn是一个日语文本规范化程序,用于 mecab neologd

标准化基于新ogd的规则: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja

欢迎投稿!

注意:安装此模块需要C++11编译器。

安装

$ pip install neologdn

用法

importneologdnneologdn.normalize("ハンカクカナ")# => 'ハンカクカナ'neologdn.normalize("全角記号!?@#")# => '全角記号!?@#'neologdn.normalize("全角記号例外「・」")# => '全角記号例外「・」'neologdn.normalize("長音短縮ウェーーーーイ")# => '長音短縮ウェーイ'neologdn.normalize("チルダ削除ウェ~∼∾〜〰~イ")# => 'チルダ削除ウェイ'neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")# => 'いろんなハイフン-'neologdn.normalize("   PRML  副 読 本   ")# => 'PRML副読本'neologdn.normalize(" Natural Language Processing ")# => 'Natural Language Processing'neologdn.normalize("かわいいいいいいいいい",repeat=6)# => 'かわいいいいいい'neologdn.normalize("無駄無駄無駄無駄ァ",repeat=1)# => '無駄ァ'

基准

# Sample code from# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlastimportnormalize_neologd%timeitnormalize(normalize_neologd.normalize_neologd)# => 1 loop, best of 3: 18.3 s per loopimportneologdn%timeitnormalize(neologdn.normalize)# => 1 loop, best of 3: 9.05 s per loop

neologdn比示例代码快2倍。

详情如下: https://github.com/ikegami yukino/neologdn/blob/master/benchmark/benchmark.ipynb

许可证

apache软件许可证。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何设置用户的特定输入,即仅8位数字?   java嗅探访问的站点并保存到文件   java系统。出来同时使用字符串和int时的println行为   java在一个变量的右边可以做多少算术运算   java我可以将RequestToken发送到web浏览器,还是应该将其存储在数据库中?   java Android错误:应用程序意外停止,请重试   Java中的字符串如何提取   java向XmlObject的所有标记添加前缀   web服务无法从同一网络访问web服务   静态变量和实例变量之间的java性能差异   java无法从Thymeleaf获取transactionsynchronized会话   java为什么实现runnable总是交织结果?   宽度优先搜索Java最短距离   java Hibernate额外懒惰不工作   java为什么程序稍后会输出代码中的其他内容?   java如何在正则表达式中使用插入符号和美元?   java即时搜索/在JTable单元格中自动完成   这个java forloop是如何工作的?   java NullPointerException MainFragment facebook登录