文本句子是文本标记器和句子拆分器

text-sentence的Python项目详细描述


文本标记器和句子拆分器

库“文本句子”是文本标记器和句子拆分器。

输入的主要功能是文本、已知名称列表和缩写。 结果是令牌列表。每个令牌都有类型和其他属性,即:

  • is word,
  • is number,
  • is roman number,
  • is sentence end,
  • is abbreviation,
  • is name,
  • is contraction,
  • is end of chapter
  • etc.

determining end of sentence需要特殊的逻辑,并注意 用“文本语句”命名包的原因。

标签

tokenization, sentence splitter, sentencer, chapter, names, abbreviation

作者

Robert Lujo,萨格勒布,克罗地亚,在许可证中查找邮件地址

功能

说出最重要的:
  • 待办事项:…

系统基于Unicode字符串。

检查Getting started

安装

安装说明-如果您安装了pip包 http://pypi.python.org/pypi/pip

pip install text-sentence
如果没有,那就用老式的方法:

您可以在http://bitbucket.org/trebor74hr/text-sentence上看到开发版本。

或具有以下功能的Mercurial克隆:

hg clone https://bitbucket.org/trebor74hr/text-sentence

开始

用法示例-启动python shell:

>>> from text_sentence import Tokenizer
>>> t = Tokenizer()
>>> list(t.tokenize("This is first sentence. This is second one!And this is third, is it?"))
[T('this'/sent_start), T('is'), T('first'), T('sentence'), T('.'/sent_end),
 T('this'/sent_start), T('is'), T('second'), T('one'), T('!'/sent_end),
 T('and'/sent_start), T('this'), T('is'), T('third'), T(','/inner_sep),
 T('is'), T('it'), T('?'/sent_end)]

更多样品可在测试中找到:

http://bitbucket.org/trebor74hr/text-sentence/src/tip/text_sentence/test_sentence.txt

进一步

因为目前没有好的文档,所以 更多信息是通过阅读模块内部的测试和 测试句子。更多信息请参见Running tests。 你可以随时阅读资料。

文档

目前没有文件。正在进行…

支架

因为这个项目受我空闲时间的限制,所以支持是有限的。

报告错误或请求功能

如果遇到bug,最好将其报告到Bitbucket网页 http://bitbucket.org/trebor74hr/text-sentence

最好的联系方式是邮寄(在许可证中找到)。

待办事项列表位于readme.txt(开发版本)中。

贡献

由于这个项目目前还没有进入稳定的api阶段,贡献 应该等一会儿。

运行测试

所有测试都是doctests(不是unittests)。有两种类型的测试 套餐:

  1. doctests in module i.e. in __init__.py
  2. doctests in test_sentence.txt

直接运行模块将运行1。和2。

运行测试:
  • 转到文本句子目录

  • 通过运行模块运行测试,例如:

    > python __init__.py
    __main__: running doctests
    test_sentence.txt: running doctests
    
  • 其他:

    > python -m"text_sentence"
    

待办事项

各种各样的东西,详见dev版本中的readme.txt。

更改

0.14

ULR1 100621:
  • 是收缩标记属性-例如不是或O_'

0.13

ULR1 100619:
  • 入门示例

0.12

ULR1 100619:
  • test_sentence.txt安装
  • 自述文件修复主标题

0.11

ULR1 100618:
  • 适应性测试
  • _初始化py和句子py

0.10

ULR1 100617:
  • 首次安装版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在ArrayList中比较数字   java在Kotlin中使异步调用同步   让“Scala编程”junit示例在IntelliJ中工作的java问题   java Servlet侦听器未在ContextListener中设置属性   将Microsoft SQL Server数据库连接到我的Java项目   加载资源时出现java“需要注册工厂”异常   java如何使用POI检查excel中的重复记录?   java如何更改机器生成的代码   java如何确保重写的方法是同步的   用Spring编写Hibernate时的java XML奥秘   java管理mysql数据库中存储的用户权限   java如何运行。来自Javascript的jar方法   java我想在Web应用程序中进行身份验证&对桌面应用程序使用相同的凭据。我该怎么做?