标记器工具
easy-tokenizer的Python项目详细描述
说明
大多数标记器要么太复杂(基于神经网络),要么太简单。 这个简单的基于规则的标记器类型小,足够好。特别是, 它处理的长字符串经常被一些简单的标记器错误地解析,deal 网址,电子邮件,长数字相当好。在
尝试使用以下脚本:
easy_tokenizer -s input_text
或者
easy_tokenizer -f input_file
要求
Python 3.6+
安装
pip install easy-tokenizer
使用
简单标记器:
输入:
- string: input string to tokenize
- filename: input text file to tokenize
- output: output filename, optional. print out to STDOUT when not set
输出:
- 一系列空格分隔的令牌
示例:
^{pr2}$输出将是“这是一个简单的测试”
发展
要安装包及其依赖项,请从project运行以下命令 根目录:
python setup.py install
要使用代码并开发包,请从project运行以下命令 根目录:
python setup.py develop
要运行单元测试,请从项目根目录执行以下操作 目录:
python setup.py test
- 项目
标签: