标记器工具

easy-tokenizer的Python项目详细描述


说明

大多数标记器要么太复杂(基于神经网络),要么太简单。 这个简单的基于规则的标记器类型小,足够好。特别是, 它处理的长字符串经常被一些简单的标记器错误地解析,deal 网址,电子邮件,长数字相当好。在

尝试使用以下脚本:

easy_tokenizer -s input_text

或者

easy_tokenizer -f input_file

CI状态

https://travis-ci.org/tilaboy/easy-tokenizer.svg?branch=masterDocumentation StatusUpdates

要求

Python 3.6+

安装

pip install easy-tokenizer

使用

  • 简单标记器:

    输入:

    • string: input string to tokenize
    • filename: input text file to tokenize
    • output: output filename, optional. print out to STDOUT when not set

    输出:

    • 一系列空格分隔的令牌

示例:

^{pr2}$

输出将是“这是一个简单的测试”

发展

要安装包及其依赖项,请从project运行以下命令 根目录:

python setup.py install

要使用代码并开发包,请从project运行以下命令 根目录:

python setup.py develop

要运行单元测试,请从项目根目录执行以下操作 目录:

python setup.py test

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java需要一种简单的方法来创建用于排序的comparator类   java getReadableDatabase和getWriteableDatabase无法解析   查找列表<Long>中与某个元素对应的所有索引的java方法   安卓将视图添加到ViewFlipper会导致java。StackOverflowerr语言   java根据它所包含的长“curTime”类字段将N的列表拆分为24(小时)   Android N中的Java8流API   自动生成Java策略文件的安全性   垃圾收集鼓励Java中的主要GC(但不是STW GC)   java如何检查UDP服务器上侦听的客户端数量   在前一台主机被Datastax Java驱动程序关闭后,Cassandra尝试重新连接到下一台主机   java如何使用Spring Boot创建部分代理   java是否有一个网站或资源可以完全比较EJB版本   java无需使用第三方库从gradle生成输出   继承由于这个多态性的基本示例中的语法有什么不同吗?(爪哇)   java字符串数组中的空字符串   java为什么CMS中的初始标记阶段是串行的   为什么Lucene有时与InChIKeys不匹配?   安卓通知Java应用程序数据库中的更改   java如何将单个json对象值解析为按钮   java打印堆栈将运行时错误跟踪到文件