使用最大匹配的python中的简单泰语wordcut

pythaiwordcut的Python项目详细描述


python中的pythaiwordcut-泰语单词cut

Codacy BadgePyPI - DownloadsPyPI - LicensePyPI - Python Version


用Python编写的一个简单的泰语分词,基于最大匹配算法 是的。Uses Lexitron(按{a3})字典作为默认

Please note: This project is under development and should not be use in production , all function and interface are subject to change. If you have issue or suggestion please feel free to ask, contribution is also very welcome :)

安装

pip install pythaiwordcut

git clone https://github.com/zenyai/pythaiwordcut.git
python setup.py install

用法

importpythaiwordcutaspwtpt=pwt.wordcut(removeRepeat=True,stopDictionary="<full path to txt file>",removeSpaces=True,minLength=1,stopNumber=False,removeNonCharacter=False,caseSensitive=True,ngram=(1,2),negation=False)print"|".join(pt.segment(u'ทดสอบการตัดคำ'))
  • removepeat:删除意图插入拼写错误,例如(_____)
  • Stc字典:删除在这个指定文本文件(一个单词一行)中存在的单词
  • Removespaces:删除空白空间
  • minlength:每个单词的最小长度
  • 停止号:如果存在则删除编号
  • removenoncharacter:删除不是泰语或英语字符的字符
  • 区分大小写:如果设置为false,将删除停止字而不考虑大小写
  • ngram:从(1,2)中添加单词ngram
  • 否定:如果设置为true,则它将在否定词和空格后的每个单词中添加not_

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javascript问题:通过URL用网站数据填充Textview   java TabLayout Android,如何用几个标签填充整个屏幕宽度,并用大量标签滚动?   Eclipse Java运行的文件不再存在于我的工作区中   安装两个Java版本时,使用Java的windows链接不起作用   java将多个图形添加到单个JPanel   java Kafka ConsumerFactory,带有两个Desiarizer   使用反射更改java类超类   当一致性测试失败时,java有没有办法让堆栈跟踪显示在控制台中   java映射到基元类型的HashMap的快速替代方案是什么?   java关闭一个jframe所有剩余的打开jframe都将关闭。   java为什么不推荐“使用getString()获取设备标识符”?   java值比较和值赋值之间有什么性能差异吗?   Java实体数组到JavaScript数组   java使用流将一个列表转换为另一个列表   在JTree中保存对象,但更改显示的名称(java swing)?   java“Hello world”Android应用程序,文件尽可能少,没有IDE,只有文本编辑器   java在方法之间传递值   java如何为项目数组创建ParseQuery?