文本预处理实用程序。

txplib的Python项目详细描述


#文本处理程序
主要目标是简化集成不同nlp python包的工作。

动态加载查询的NLP资源。


<;img src="doc/figures/architecture.png/architecture.png"width="400">;



是的.load_content_from_library("resource_class_name","resource_library_name")

tp.load_content_from_library("sentence_tokenizer","nltk_eng_punkt")
````
*resource class name*是一个必需的参数,它指示您需要什么类型的资源。它可以是stopword、标点或词干分析器等。

每种类型的资源都可以支持多个库。*资源库名称*表示要使用哪个库。例如,您可以使用*porter('resource_library_name':'nltk_eng_porter')*或*lancaster('resource_library_name':'nltk_eng_lancaster')*来终止您的文本。
*资源库名称*对每类资源都有默认值。

为加载的资源类调用此函数将更改资源库。

调用函数将使用其*nlplibrary*中加载的资源来执行其负责的任务。

如果在调用之前未加载所需资源,则它将自动加载默认资源以支持其任务。

ow_library_catalog()
```
此函数可以帮助查找可用资源。




scikit learn moduels
nlpunit是核心接口,它为每个nlp moduel提供scikit learn包装,包括*标记器*、*规范器*、*过滤器*、*编码器*等。

2wp):将原始文档转换为[word page](dataflow wordpage)。
*[**documents2wordpages**](docs2wps):将原始文档列表转换为[word page](dataflow wordpage)列表。
*[**documents2bow**](docs2bow):将原始文档列表转换为[bow](dataflow bow)。

t它们在[数据流](数据流)部分中介绍。

**要了解如何使用它们,请参见单元测试文件。**

lt;a name="data flow">;<;/a>;数据流

lt;a name="dataflow data model">;<;/a>;数据模型约定

要提供一致且直观的界面,此软件包将遵循c名称文本数据通知。



<





*类型:字符串或字符串列表
*数据:未经修饰的原始文本或未经修饰的原始文本列表。









<

<

<


>类型:未经修饰的原始文本或未经修饰的原始文本列表或未经修饰的原始文本列表。



>
*类型:列表或列表:类型:列表或列表:列表或列表。字符串。
*数据:句子列表。句子标记器的输出。句子是有序的,即保持句子的顺序。####<;a name="dataflow words">;<;a>;单词

*类型:字符串列表或字符串元组列表。
*数据:单词标记列表或标记单词标记列表。*对于标记词,每个元素都是一个元组。元组的第一个成员是单词,第二个是对应的标记。

如果输入为[句子](数据流句子),则输出单词标记器。
*单词页是有序的,即保持单词的顺序。
*对于标记字页,每个元素都是一个元组。元组的第一个成员是单词,第二个是对应的标记。


*bow中的单词不一定是顺序的,即单词之间没有顺序。
*每个字符串列表都是文档中有代表性的单词的集合。














\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\doc2wp.png"width="900">;

当wordtokenizer以[word page](dataflow wordpage)作为输入和输出之后的所有块时,可以关闭它们(caselow、postagger、lemmatizer、tagcleaner)以跳过对文本数据的某些操作。


**documents2wordpages**将原始[文档](数据流文档)列表转换为word页面列表。**documents2wordpages**使用[document2wordpages](dataflow-doc2wp)块将每个输入文档映射到相应的word页面,并将它们作为列表输出到输入中。

<;img src="doc/figures/docs2wps.png"width="500">;

字符串的层列表。



\\\\\\\\\\\\\




**docs2bow<;a name="docs2bow"<;lt;/a>;documents2bow

**docs2bow****将原始[文档](数据流文档)的列表转换为[bow](数据流文档)的列表。





<;img src="doc/figuges/docs2bow.png"width="850">;




****tokentensorreduce器****MER公司给定嵌套列表的较低级别中的ges列表。它将[word page](dataflow wordpage)的列表转换为bow。**documents2bow**中使用的多个筛选块,包括posfilter、stopwords筛选和标点筛选。*过滤块*和标记清除块*可以关闭。

食物真棒!我们进入了库。"
```

*通过将nlplibrary实例传递给初始值设定项来初始化一个文本预处理实例。

`` python
在:
tp=textppreprocess(nlplibrary())
```

*将文本标记成句子和单词序列。

`` python
在:
句子列表=tp.标记到句子(文本)
文档=tp.标记到单词(句子列表)
打印(documents)
```

```python
输出:
[[['she','likes','dogs','.],['food','is','awesome','!'],['we','go','to','library','.]]
````

*词性(pos)标记标记标记和规范化文本。

``python
in:
taged_documents=tp.pos_tag(documents)
normalized_documents=tp.lemmatize_documents(taged_documents)
打印(normalized_documents)
```

```python
输出:
[['she','like','dog','.],['food','be','awesome','],['we','go','to','library','.]]
```

*仅保留动词并删除其他单词。

```python
in:
verbs_in_sents=tp.focus_pos_tag_type(文档,['verb'])
打印(动词in-sents)
```

``python
输出:
[['like'],['be'],['go']]
````

todo list
*模型评估模块
*拼写检查模块
*句子结构筛选模块




欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
未检测到“空格”的java ASCII码   音频如何在Java中设置SourceDataLine的音量   java MyBatissSpringBoot无法使用作为bean注入的数据源   Java字谜递归列表<List<String>>仅存储空列表<Strings>   java显示30px高的JPanel,然后用minecraft填充剩余空间   java JOGL平滑度   Java:按完整与否对1d对象数组进行排序   arraylist仅当java结构不存在时才将对象添加到java结构中   无法初始化java渲染库在安卓 studio 4.1.1上出现错误   java SpringBoot ClassCastException   java解析文本文件,基于字数   java=运算符引发异常   java使点可拖动并存储新坐标JavaFx   JavaWebSphereApplicationServer:EJB模块和JMS路由器