文本句子是文本标记器和句子拆分器
text-sentence的Python项目详细描述
文本标记器和句子拆分器
库“文本句子”是文本标记器和句子拆分器。
输入的主要功能是文本、已知名称列表和缩写。 结果是令牌列表。每个令牌都有类型和其他属性,即:
- is word,
- is number,
- is roman number,
- is sentence end,
- is abbreviation,
- is name,
- is contraction,
- is end of chapter
- etc.
determining end of sentence需要特殊的逻辑,并注意 用“文本语句”命名包的原因。
安装
安装说明-如果您安装了pip包 http://pypi.python.org/pypi/pip:
pip install text-sentence
- 如果没有,那就用老式的方法:
- 从http://pypi.python.org/pypi/text-sentence/ 下载zip
- 解压缩
- 打开外壳
- 转到分发目录
- python setup.py安装
您可以在http://bitbucket.org/trebor74hr/text-sentence上看到开发版本。
或具有以下功能的Mercurial克隆:
hg clone https://bitbucket.org/trebor74hr/text-sentence
开始
用法示例-启动python shell:
>>> from text_sentence import Tokenizer >>> t = Tokenizer() >>> list(t.tokenize("This is first sentence. This is second one!And this is third, is it?")) [T('this'/sent_start), T('is'), T('first'), T('sentence'), T('.'/sent_end), T('this'/sent_start), T('is'), T('second'), T('one'), T('!'/sent_end), T('and'/sent_start), T('this'), T('is'), T('third'), T(','/inner_sep), T('is'), T('it'), T('?'/sent_end)]
更多样品可在测试中找到:
http://bitbucket.org/trebor74hr/text-sentence/src/tip/text_sentence/test_sentence.txt
进一步
因为目前没有好的文档,所以 更多信息是通过阅读模块内部的测试和 测试句子。更多信息请参见Running tests。 你可以随时阅读资料。
文档
目前没有文件。正在进行…
支架
因为这个项目受我空闲时间的限制,所以支持是有限的。
报告错误或请求功能
如果遇到bug,最好将其报告到Bitbucket网页 http://bitbucket.org/trebor74hr/text-sentence。
最好的联系方式是邮寄(在许可证中找到)。
待办事项列表位于readme.txt(开发版本)中。
贡献
由于这个项目目前还没有进入稳定的api阶段,贡献 应该等一会儿。
运行测试
所有测试都是doctests(不是unittests)。有两种类型的测试 套餐:
- doctests in module i.e. in __init__.py
- doctests in test_sentence.txt
直接运行模块将运行1。和2。
- 运行测试:
转到文本句子目录
通过运行模块运行测试,例如:
> python __init__.py __main__: running doctests test_sentence.txt: running doctests
其他:
> python -m"text_sentence"
待办事项
各种各样的东西,详见dev版本中的readme.txt。
更改
0.14
- ULR1 100621:
- 是收缩标记属性-例如不是或O_'
0.13
- ULR1 100619:
- 入门示例
0.12
- ULR1 100619:
- test_sentence.txt安装
- 自述文件修复主标题
0.11
- ULR1 100618:
- 适应性测试
- _初始化py和句子py
0.10
- ULR1 100617:
- 首次安装版本