从文本数据获取基本特性的Python包。
textfeatures的Python项目详细描述
Introduction:textfeatures
在处理文本数据时,我们总是关心数据的特征、数据的预处理以及更可能的预测。为了改进我们的模型,重要的是要理解数据并在数据中找到更有趣的特性,比如标签、链接等等。在
什么是textfeatures?
它是一个python包,它可以帮助您从文本数据中提取基本特性,如hashtags、stopwords、numerics,这将帮助您理解数据并更有效地改进模型。在
函数结构:
函数名(dataframe,“text_column”,“new_column”)
数据帧:-名称数据帧的
text_列:-名称从中提取特征的列。
新建_列:-新建从文本列的特征提取派生的列。
textfeatures将为您提供哪些服务?
1。word_count():-给出文本数据中的总字数。在
2。char_count():-给出字符数。在
3。avg_word_length():-给出平均单词长度。在
4。stopwords_count():给出stopwords计数。在
^{str 1}5美元。stopwords():从文本数据中提取非索引字。在
6。hashtags_count():-给出hashtags count。在
7。hashtags():-从文本数据中提取hashtags。在
8。links_count():-从文本数据中给出嵌入链接的计数。在
9。links():-从文本数据中提取链接。在
^{str 1}10美元。numeric_count():-给出数字计数。在
^{str 1}11美元。user_notifies_count():-从文本数据中给用户引用计数。在
12。user_nothings():-从文本数据中提取用户提到的内容。在
^{str 1}13美元。clean():-删除文本数据中不必要的内容后,给出预处理的数据。在
- 项目
标签: