类型错误：稀疏矩阵长度不明确；使用RF分类器时使用getnnz（）或shape[0]？

from sklearn.decomposition.truncated_svd import TruncatedSVD pca = TruncatedSVD(n_components=300) X_reduced_train = pca.fit_transform(X_train) from sklearn.ensemble import RandomForestClassifier classifier=RandomForestClassifier(n_estimators=10) classifier.fit(X_reduced_train, y_train) prediction = classifier.predict(X_testing)

File "/usr/local/lib/python2.7/site-packages/sklearn/ensemble/forest.py", line 419, in predict n_samples = len(X) File "/usr/local/lib/python2.7/site-packages/scipy/sparse/base.py", line 192, in __len__ raise TypeError("sparse matrix length is ambiguous; use getnnz()" TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

df = pd.read_csv('/path/file.csv', header=0, sep=',', names=['id', 'text', 'label']) X = tfidf_vect.fit_transform(df['text'].values) y = df['label'].values from sklearn.decomposition.truncated_svd import TruncatedSVD pca = TruncatedSVD(n_components=2) X = pca.fit_transform(X) a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.33, random_state=42) from sklearn.ensemble import RandomForestClassifier classifier=RandomForestClassifier(n_estimators=10) classifier.fit(a_train, b_train) prediction = classifier.predict(a_test) from sklearn.metrics.metrics import precision_score, recall_score, confusion_matrix, classification_report print '\nscore:', classifier.score(a_train, b_test) print '\nprecision:', precision_score(b_test, prediction) print '\nrecall:', recall_score(b_test, prediction) print '\n confussion matrix:\n',confusion_matrix(b_test, prediction) print '\n clasification report:\n', classification_report(b_test, prediction)

2条回答

网友

1楼 · 编辑于 2024-09-27 17:39:42

如果要将相同的数据结构（类型和形状）传递给分类器的fit方法和predict方法，则有点不清楚。随机森林需要很长时间才能运行大量的功能，因此建议减少链接到的帖子中的维度。

您应该将SVD应用于训练和测试数据，以便分类器在与您希望预测的数据相同的形状输入上进行训练。检查输入是否匹配，预测方法的输入具有相同数量的特征，并且都是数组而不是稀疏矩阵。

更新示例：更新为使用数据帧

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect= TfidfVectorizer(  use_idf=True, smooth_idf=True, sublinear_tf=False)
from sklearn.cross_validation import train_test_split

df= pd.DataFrame({'text':['cat on the','angel eyes has','blue red angel','one two blue','blue whales eat','hot tin roof','angel eyes has','have a cat']\
              ,'class': [0,0,0,1,1,1,0,3]})



X = tfidf_vect.fit_transform(df['text'].values)
y = df['class'].values

from sklearn.decomposition.truncated_svd import TruncatedSVD        
pca = TruncatedSVD(n_components=2)                                
X_reduced_train = pca.fit_transform(X)  

a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.33, random_state=42)

from sklearn.ensemble import RandomForestClassifier 

classifier=RandomForestClassifier(n_estimators=10)                  
classifier.fit(a_train.toarray(), b_train)                            
prediction = classifier.predict(a_test.toarray())

注意SVD发生在分割成训练集和测试集之前，因此传递给predictor的数组与调用fit方法的数组具有相同的n。

网友

2楼 · 编辑于 2024-09-27 17:39:42

我对sklearn知之甚少，不过我隐约记得之前的一些问题，这些问题是由切换到使用稀疏矩阵引发的。在内部，一些矩阵必须用m.toarray()或m.todense()替换。

但是为了让你知道错误信息是关于什么的，请考虑

In [907]: A=np.array([[0,1],[3,4]])
In [908]: M=sparse.coo_matrix(A)
In [909]: len(A)
Out[909]: 2
In [910]: len(M)
...
TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

In [911]: A.shape[0]
Out[911]: 2
In [912]: M.shape[0]
Out[912]: 2

len()通常在Python中用于计算列表的一级项的数量。应用于二维数组时，它是行数。但是A.shape[0]是计算行数的更好方法。和M.shape[0]是一样的。在本例中，您对.getnnz不感兴趣，它是稀疏矩阵的非零项数。A没有此方法，但可以从A.nonzero()派生。

相关问题更多 >

编程相关推荐

热门问题

热门文章