使用scikit learn时出现属性错误

from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] test_set = ["The sun in the sky is bright."] stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) transformer = TfidfTransformer() trainVectorizerArray = vectorizer.fit_transform(train_set).toarray() trainVectorizerArray = vectorizer. testVectorizerArray = vectorizer.transform(test_set).toarray() print 'Fit Vectorizer to train set', trainVectorizerArray print 'Transform Vectorizer to test set', testVectorizerArray cx = lambda a, b : round(np.inner(a, b)/(LA.norm(a)*LA.norm(b)), 3) for vector in trainVectorizerArray: print vector for testV in testVectorizerArray: print testV cosine = cx(vector, testV) print cosine transformer.fit(trainVectorizerArray) print transformer.transform(trainVectorizerArray).toarray() transformer.fit(testVectorizerArray) tfidf = transformer.transform(testVectorizerArray) print tfidf.todense()

Traceback (most recent call last): File "C:\Users\Animesh\Desktop\NLP\ngrams2.py", line 14, in <module> trainVectorizerArray = vectorizer.fit_transform(train_set).toarray() File "C:\Python27\lib\site-packages\scikit_learn-0.13.1-py2.7-win32.egg\sklearn \feature_extraction\text.py", line 740, in fit_transform raise ValueError("empty vocabulary; training set may have" ValueError: empty vocabulary; training set may have contained only stop words or min_df (resp. max_df) may be too high (resp. too low).

1条回答

网友

1楼 · 发布于 2024-06-23 02:42:37

因为我运行的是开发（0.14之前的）版本，其中feature_extraction.text模块被彻底检查过，所以没有得到相同的错误消息。但我想你可以用以下方法解决这个问题：

vectorizer = CountVectorizer(stop_words=stopWords, min_df=1)

min_df参数导致CountVectorizer丢弃在太少文档中出现的任何术语（因为它没有任何预测值）。默认情况下，它被设置为2，这意味着所有的术语都会被丢弃，因此会得到一个空词汇表。

相关问题更多 >

编程相关推荐

热门问题

热门文章