从独立的、基于pytha的最大字符匹配字典中提取的泰语(内联)字符
newmm-tokenizer的Python项目详细描述
newmm标记器
从PyThaiNLP提取的基于字典的最大匹配+泰语字符簇(newmm)标记器。在
目标
创建此存储库是为了减少原始PyThaiNLP Tokenizer Module的总大小。主要目标是能够将泰语句子分成一系列单词。在
支持
该模块支持Python3.6+,与最初的PyThaiNLP存储库一样。在
安装
pip install newmm-tokenizer
如何使用
^{pr2}$LICENSE
请参阅毕达欣的原始许可证here
- 项目
标签: