"在Python 3.6中,有比NLTK更快的雪球分词器吗?"

2024-09-27 07:34:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在使用NLTK的snowballschommer来阻止我文档中的单词,当我有68个文档时,这个工具工作得很好。现在我有4000份文件,这太慢了。我读了另一篇文章,其中有人建议使用PyStemmer,但是python3.6没有提供这个功能,还有其他包可以做到吗?或者我可以在代码中做些什么来加速这个过程。在

代码:

eng_stemmer = nltk.stem.SnowballStemmer('english')
...
class StemmedCountVectorizer(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc: ([eng_stemmer.stem(w) for w in analyzer(doc)])

Tags: 工具代码文档buildselfdoc单词analyzer
1条回答
网友
1楼 · 发布于 2024-09-27 07:34:46

PyStemmer在其文档中并没有说它可以与python3.6一起工作,但实际上是这样。安装与Python 3.6兼容的VisualStudio C++构建体,您可以在这里找到: http://landinghub.visualstudio.com/visual-cpp-build-tools

然后尝试pip install pystemmer

如果不起作用,请确保您完全按照这里的说明手动安装:https://github.com/snowballstem/pystemmer

相关问题 更多 >

    热门问题