我正在使用CountVectorizer标记文本,我想添加我自己的停止词。为什么这样不行?“德”这个词不应该出现在最后的印刷品上。在
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1,1),stop_words=frozenset([u'de']))
word_tokenizer = vectorizer.build_tokenizer()
print (word_tokenizer(u'Isto é um teste de qualquer coisa.'))
[u'Isto', u'um', u'teste', u'de', u'qualquer', u'coisa']
您可以看到
u'de'
不在计算词汇表中。。。在方法
build_tokenizer
只是将字符串标记化,删除stopwords
应该在之后完成来自
^{pr2}$CountVectorizer
的源代码:解决问题的方法可以是:
相关问题 更多 >
编程相关推荐