Python txplib包_程序模块 - PyPI

文本预处理实用程序。

txplib的Python项目详细描述

#文本处理程序
主要目标是简化集成不同nlp python包的工作。

动态加载查询的NLP资源。

<；img src="doc/figures/architecture.png/architecture.png"width="400">；

是的.load_content_from_library（"resource_class_name"，"resource_library_name"）

tp.load_content_from_library（"sentence_tokenizer"，"nltk_eng_punkt"）
````
*resource class name*是一个必需的参数，它指示您需要什么类型的资源。它可以是stopword、标点或词干分析器等。

每种类型的资源都可以支持多个库。*资源库名称*表示要使用哪个库。例如，您可以使用*porter（'resource_library_name'：'nltk_eng_porter'）*或*lancaster（'resource_library_name'：'nltk_eng_lancaster'）*来终止您的文本。
*资源库名称*对每类资源都有默认值。

为加载的资源类调用此函数将更改资源库。

调用函数将使用其*nlplibrary*中加载的资源来执行其负责的任务。

如果在调用之前未加载所需资源，则它将自动加载默认资源以支持其任务。

ow_library_catalog（）
```
此函数可以帮助查找可用资源。

scikit learn moduels
nlpunit是核心接口，它为每个nlp moduel提供scikit learn包装，包括*标记器*、*规范器*、*过滤器*、*编码器*等。

2wp）：将原始文档转换为[word page]（dataflow wordpage）。
*[**documents2wordpages**]（docs2wps）：将原始文档列表转换为[word page]（dataflow wordpage）列表。
*[**documents2bow**]（docs2bow）：将原始文档列表转换为[bow]（dataflow bow）。

t它们在[数据流]（数据流）部分中介绍。

**要了解如何使用它们，请参见单元测试文件。**

lt；a name="data flow">；<；/a>；数据流

lt；a name="dataflow data model">；<；/a>；数据模型约定

要提供一致且直观的界面，此软件包将遵循c名称文本数据通知。

<

*类型：字符串或字符串列表
*数据：未经修饰的原始文本或未经修饰的原始文本列表。

<

<

<

>类型：未经修饰的原始文本或未经修饰的原始文本列表或未经修饰的原始文本列表。

>
*类型：列表或列表：类型：列表或列表：列表或列表。字符串。
*数据：句子列表。句子标记器的输出。句子是有序的，即保持句子的顺序。####<；a name="dataflow words">；<；a>；单词

*类型：字符串列表或字符串元组列表。
*数据：单词标记列表或标记单词标记列表。*对于标记词，每个元素都是一个元组。元组的第一个成员是单词，第二个是对应的标记。

如果输入为[句子]（数据流句子），则输出单词标记器。
*单词页是有序的，即保持单词的顺序。
*对于标记字页，每个元素都是一个元组。元组的第一个成员是单词，第二个是对应的标记。

*bow中的单词不一定是顺序的，即单词之间没有顺序。
*每个字符串列表都是文档中有代表性的单词的集合。

\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\doc2wp.png"width="900">；

当wordtokenizer以[word page]（dataflow wordpage）作为输入和输出之后的所有块时，可以关闭它们（caselow、postagger、lemmatizer、tagcleaner）以跳过对文本数据的某些操作。

**documents2wordpages**将原始[文档]（数据流文档）列表转换为word页面列表。**documents2wordpages**使用[document2wordpages]（dataflow-doc2wp）块将每个输入文档映射到相应的word页面，并将它们作为列表输出到输入中。

<；img src="doc/figures/docs2wps.png"width="500">；

字符串的层列表。

\\\\\\\\\\\\\

**docs2bow<；a name="docs2bow"<；lt；/a>；documents2bow

**docs2bow****将原始[文档]（数据流文档）的列表转换为[bow]（数据流文档）的列表。

<；img src="doc/figuges/docs2bow.png"width="850">；

****tokentensorreduce器****MER公司给定嵌套列表的较低级别中的ges列表。它将[word page]（dataflow wordpage）的列表转换为bow。**documents2bow**中使用的多个筛选块，包括posfilter、stopwords筛选和标点筛选。*过滤块*和标记清除块*可以关闭。

食物真棒！我们进入了库。"
```

*通过将nlplibrary实例传递给初始值设定项来初始化一个文本预处理实例。

`` python
在：
tp=textppreprocess（nlplibrary（））
```

*将文本标记成句子和单词序列。

`` python
在：
句子列表=tp.标记到句子（文本）
文档=tp.标记到单词（句子列表）
打印（documents）
```

```python
输出：
[[['she'，'likes'，'dogs'，'.]，['food'，'is'，'awesome'，'！']，['we'，'go'，'to'，'library'，'.]]
````

*词性（pos）标记标记标记和规范化文本。

``python
in:
taged_documents=tp.pos_tag（documents）
normalized_documents=tp.lemmatize_documents（taged_documents）
打印（normalized_documents）
```

```python
输出：
[['she'，'like'，'dog'，'.]，['food'，'be'，'awesome'，']，['we'，'go'，'to'，'library'，'.]]
```

*仅保留动词并删除其他单词。

```python
in:
verbs_in_sents=tp.focus_pos_tag_type（文档，['verb']）
打印（动词in-sents）
```

``python
输出：
[['like']，['be']，['go']]
````

todo list
*模型评估模块
*拼写检查模块
*句子结构筛选模块

欢迎加入QQ群-->： 979659372

txplib 0.1

txplib的Python项目详细描述

推荐PyPI第三方库

dsnd-probability-agottani

daculous

gym-yotrading

sv-practise-distributions

distributions-pk

hd-gliomouse

userutil

scisoftp

dsbox

genetica

django-react-templatetags-es-modules

hackernews500kindex

tv2-bell-automation-framework

kw-audis-common

Airport-Monitor

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

txplib 0.1

txplib的Python项目详细描述

推荐PyPI第三方库

dsnd-probability-agottani

daculous

gym-yotrading

sv-practise-distributions

distributions-pk

hd-gliomouse

userutil

scisoftp

dsbox

genetica

django-react-templatetags-es-modules

hackernews500kindex

tv2-bell-automation-framework

kw-audis-common

Airport-Monitor

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签