一种用于中文的微标记器

MicroTokenizer的Python项目详细描述


微型中文分词器

一个微型的中文分词器,目前提供了七种分词算法:

  1. 按照词语的频率(概率)来利用构建 DAG(有向无环图)来分词,使用 Trie Tree 构建前缀字典树
  2. 使用隐马尔可夫模型(Hidden Markov Model,HMM)来分词
  3. 融合 DAG 和 HMM 两种分词模型的结果,按照分词粒度最大化的原则进行融合得到的模型
  4. 正向最大匹配法
  5. 反向最大匹配法
  6. 双向最大匹配法
  7. 基于 CRF (Conditional Random Field, 条件随机场) 的分词方法

特点 / 特色

  • 面向教育:可以导出 graphml 格式的图结构文件,辅助学习者理解算法过程
  • 良好的分词性能:由于使用类似 结巴分词 的算法,具有良好的分词性能
  • 具有良好的扩展性:使用和 结巴分词 一样的字典文件,可以轻松添加自定义字典
  • 自定义能力强
  • 提供工具和脚本帮助用户训练自己的分词模型而不是使用内建的模型

更多内容见仓库 https://github.com/howl-anderson/MicroTokenizer

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓 studio安装的java Unity本机广告   java如何将映射转换为对象   java我试图使用rest控制器从h2数据库中检索记录,但它说没有数据集   反思为什么会抛出java。lang.InstanceException?   在opensuse中找不到Java/javac   java为Android上的谷歌地图添加了5900多个标记。如何有效地做   java如何在if语句中使用循环   java如何在JPA(Hibernate)中映射一对多关系和复合主键?   如何在Java中读取和写入外部进程?   Java线程。睡眠时间最短   java使用EclipseGradle插件如何离线托管和使用依赖项(库jar文件)   java为什么虚拟引用在排队时没有被清除?   java无法理解如何创建用于响铃报警的取消按钮   java解析不应通过注入容器错误发生   java Toast或ProgressDialog不显示   java在自定义对象上使用优先级队列的更好方法   java格式的。wmv文件。(或者任何视频文件都很好)   从页面调用另一个侦听器后,不会调用java JSF<f:ajax>侦听器   java注释ConfigApplicationContext不能多次刷新有什么原因吗?