从字符串中快速提取职务
find-job-titles的Python项目详细描述
查找工作标题
在字符串中查找职务
- 自由软件:麻省理工学院许可证
- python版本:2.7、3.4+
功能
- 在给定字符串中查找77K个职务中的任何一个
- 使用“acora”库进行文本处理非常快
- 词典生成需要提前大约20秒
快速启动
实例化“finder”并开始提取作业标题:
>>> from find_job_titles import Finder >>> finder.findall('I am the Senior Vice President') [('Senior Vice President', 9), ('Vice President', 16), ('President', 21)]
返回所有可能的重叠匹配。 匹配项包含找到匹配项的位置信息。
或者使用“finditer”来延迟使用匹配项:
>>> finder.finditer('I am the Senior Vice President')] <generator object ...>
学分
这个包是用Cookiecutter和fluquid/cookiecutter-pypackage项目模板创建的。
历史记录
0.7.0(2017-08-22)
- Py27 Re的固定毒性试验:Acora和Pyahocorasick的不同Unicode处理
- 现在只使用pyahocarasick测试默认的finder。
0.6.0(2017-08-22)
- 重写并修复最长匹配代码
- 添加了pyahocarasick实现并设为默认值
- 添加了用于启用/禁用最长匹配的参数
0.5.0(2017-08-22)
0.4.0(2017-08-21)
- 与营销主管一起更新了标题列表
- 设置非开发版本
0.3.0-dev(2017-08-18)
- 更新了标题列表(姓氏,—黑名单,+添加的角色)
0.2.0-dev(2017-08-18)
- 使用发行版正确跟踪代码
0.1.0(未发布)
- pypi上的第一个版本。