Python text-sentence包_程序模块 - PyPI

文本句子是文本标记器和句子拆分器

text-sentence的Python项目详细描述

文本标记器和句子拆分器

库“文本句子”是文本标记器和句子拆分器。

输入的主要功能是文本、已知名称列表和缩写。结果是令牌列表。每个令牌都有类型和其他属性，即：

is word,
is number,
is roman number,
is sentence end,
is abbreviation,
is name,
is contraction,
is end of chapter
etc.

determining end of sentence需要特殊的逻辑，并注意用“文本语句”命名包的原因。

作者

Robert Lujo，萨格勒布，克罗地亚，在许可证中查找邮件地址

功能

说出最重要的：

待办事项：…

系统基于Unicode字符串。

检查Getting started。

安装

安装说明-如果您安装了pip包 http://pypi.python.org/pypi/pip：

pip install text-sentence

如果没有，那就用老式的方法：

从http://pypi.python.org/pypi/text-sentence/
解压缩
打开外壳
转到分发目录
python setup.py安装

您可以在http://bitbucket.org/trebor74hr/text-sentence上看到开发版本。

或具有以下功能的Mercurial克隆：

hg clone https://bitbucket.org/trebor74hr/text-sentence

开始

用法示例-启动python shell:

>>> from text_sentence import Tokenizer
>>> t = Tokenizer()
>>> list(t.tokenize("This is first sentence. This is second one!And this is third, is it?"))
[T('this'/sent_start), T('is'), T('first'), T('sentence'), T('.'/sent_end),
 T('this'/sent_start), T('is'), T('second'), T('one'), T('!'/sent_end),
 T('and'/sent_start), T('this'), T('is'), T('third'), T(','/inner_sep),
 T('is'), T('it'), T('?'/sent_end)]

更多样品可在测试中找到：

http://bitbucket.org/trebor74hr/text-sentence/src/tip/text_sentence/test_sentence.txt

进一步

因为目前没有好的文档，所以更多信息是通过阅读模块内部的测试和测试句子。更多信息请参见Running tests。你可以随时阅读资料。

文档

目前没有文件。正在进行…

支架

因为这个项目受我空闲时间的限制，所以支持是有限的。

报告错误或请求功能

如果遇到bug，最好将其报告到Bitbucket网页 http://bitbucket.org/trebor74hr/text-sentence。

最好的联系方式是邮寄（在许可证中找到）。

待办事项列表位于readme.txt（开发版本）中。

贡献

由于这个项目目前还没有进入稳定的api阶段，贡献应该等一会儿。

运行测试

所有测试都是doctests（不是unittests）。有两种类型的测试套餐：

doctests in module i.e. in __init__.py
doctests in test_sentence.txt

直接运行模块将运行1。和2。

运行测试：

通过运行模块运行测试，例如：

> python __init__.py
__main__: running doctests
test_sentence.txt: running doctests

其他：
```
> python -m"text_sentence"
```

待办事项

各种各样的东西，详见dev版本中的readme.txt。

更改

0.14

ULR1 100621:

是收缩标记属性-例如不是或O_'

0.13

ULR1 100619:

入门示例

0.12

ULR1 100619:

test_sentence.txt安装
自述文件修复主标题

0.11

ULR1 100618:

适应性测试
_初始化py和句子py

0.10

ULR1 100617:

首次安装版本

欢迎加入QQ群-->： 979659372

text-sentence 0.14

text-sentence的Python项目详细描述

文本标记器和句子拆分器

标签

作者

功能

安装

开始

进一步

文档

支架

报告错误或请求功能

贡献

运行测试

待办事项

更改

0.14

0.13

0.12

0.11

0.10

推荐PyPI第三方库

sejong-downloader

kx

medlib

keycloakauth

topsis-kamakshi

datasette-insert-unsafe

TwitterSDK

jupyter-nbrequirements

simple-ansible-api

Py-Monitor-JetsonTX2

np-xarr

self-balancing-binary-search-tree

pymaft

teamscritique

gbd-pypers

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签