我目前正在使用NLTK的snowballschommer来阻止我文档中的单词,当我有68个文档时,这个工具工作得很好。现在我有4000份文件,这太慢了。我读了另一篇文章,其中有人建议使用PyStemmer
,但是python3.6没有提供这个功能,还有其他包可以做到吗?或者我可以在代码中做些什么来加速这个过程。在
代码:
eng_stemmer = nltk.stem.SnowballStemmer('english')
...
class StemmedCountVectorizer(CountVectorizer):
def build_analyzer(self):
analyzer = super(StemmedCountVectorizer, self).build_analyzer()
return lambda doc: ([eng_stemmer.stem(w) for w in analyzer(doc)])
PyStemmer在其文档中并没有说它可以与python3.6一起工作,但实际上是这样。安装与Python 3.6兼容的VisualStudio C++构建体,您可以在这里找到: http://landinghub.visualstudio.com/visual-cpp-build-tools
然后尝试
pip install pystemmer
如果不起作用,请确保您完全按照这里的说明手动安装:https://github.com/snowballstem/pystemmer
相关问题 更多 >
编程相关推荐