在Scikit learn中安装TfidVectorizer和KMeans后，如何进行预测？

vectorizer = TfidfVectorizer(max_df=0.8, max_features=max_feat, norm="l1", analyzer="word", min_df=0.1,ngram_range=(1,2) ) X = vectorizer.fit_transform(df['reviews']) km = KMeans(n_clusters=number, init='k-means++', max_iter=100, n_init=3, verbose=1, n_jobs = -2) km.fit(X)

sample = df.tail(int(totalTestRows * lineLimit)) for row in sample.itertuples(): test_data = np.array([row[6]]) testVectorizerArray = vectorizer.transform(test_data).toarray() rowX = vectorizer.fit(testVectorizerArray) print(km.predict(rowX))

1条回答

网友

1楼 · 发布于 2024-06-26 00:22:07

您不应该在测试阶段重新安装矢量器，如果您将矢量器和分类器与管道结合起来，您的代码会更干净：

from sklearn.pipeline import make_pipeline
vectorizer = TfidfVectorizer(max_df=0.8, max_features=max_feat, norm="l1", analyzer="word",
                                 min_df=0.1,ngram_range=(1,2)
                                 )   
km = KMeans(n_clusters=number, init='k-means++', max_iter=100, n_init=3,
                    verbose=1, n_jobs = -2)
clf = make_pipeline(vectorizer, km)
clf.fit(X)


sample = df.tail(int(totalTestRows * lineLimit))

for row in sample.itertuples():
    test_data = np.array([row[6]])
    print(clf.predict(test_data))

相关问题更多 >

编程相关推荐

热门问题

热门文章