我希望使用Python以与在R中相同的方式预处理文档的语料库。例如,给定一个初始语料库corpus
,我希望以一个预处理的语料库结束,该语料库与使用以下R代码生成的语料库相对应:
library(tm)
library(SnowballC)
corpus = tm_map(corpus, tolower)
corpus = tm_map(corpus, removePunctuation)
corpus = tm_map(corpus, removeWords, c("myword", stopwords("english")))
corpus = tm_map(corpus, stemDocument)
在Python中有没有一种简单或直接(最好是预先构建的)方法来实现这一点?有没有办法确保完全相同的结果?在
例如,我想预处理
@Apple ear pods are AMAZING! Best sound from in-ear headphones I've ever had!
进入
ear pod amaz best sound inear headphon ive ever
CountVectorizer
和{演示:
^{pr2}$(我链接到的示例实际上使用一个类来缓存lemmatizer,但是函数也可以工作。)
在预处理步骤中,在}之间获得完全相同的结果似乎很棘手,因此我认为最好的方法是使用
nltk
和{rpy2
在R中运行预处理并将结果拉入python:然后,可以将其加载到}之间的匹配,只需删除长度小于3的项:
^{pr2}$scikit-learn
中,要使CountVectorizer
和{让我们用R来验证这个匹配:
正如您所看到的,现在两种方法之间存储的元素和术语的数量完全匹配。在
相关问题 更多 >
编程相关推荐