使用TFIDF在KMeans中绘制质心

from sklearn.feature_extraction.text import TfidfVectorizer df_abstracts = df_cleared['abstract'].tolist() # list with 33,000 lines of strings tfidf = TfidfVectorizer(max_features=2**12, ngram_range=(1,4), stop_words = 'english') vextorized = tfidf.fit_transform(df_abstracts) #For the plot generation, I do this dimensionality reduction from 33,000 to 2. from sklearn.decomposition import PCA pca = PCA(n_components = 9) X_pca = pca.fit_transform(vextorized.toarray()) from sklearn.cluster import MiniBatchKMeans kmeans = MiniBatchKMeans(init='k-means++', n_clusters=4, max_iter=500, n_init=10, random_state=9) y_pred = kmeans.fit_predict(vextorized) np.unique(y_pred) palette = sns.color_palette('bright', len(set(y_pred))) sns.scatterplot(X_pca[:,0], X_pca[:, 1], hue=y_pred, legend='full', palette=palette) plt.title('Clustered')

1条回答

网友

1楼 · 发布于 2024-10-04 09:25:52

你在原始数据上做了k均值聚类，所以对于投影到PCA空间上的中心，你需要再次变换它

我使用了一个示例数据集：

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.cluster import MiniBatchKMeans
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

categories = ['rec.sport.baseball', 'sci.electronics',
              'comp.os.ms-windows.misc', 'talk.politics.misc']

newsgroups = fetch_20newsgroups(subset='train',
                                      categories=categories)

X_train = newsgroups.data
y_train = newsgroups.target

tfidf = TfidfVectorizer(max_features=2**12, ngram_range=(1,4), stop_words = 'english')
vextorized = tfidf.fit_transform(X_train)

此部分执行pca时，您需要保留拟合，以便可以使用它来投影kmeans中心：

pca = PCA(n_components = 9).fit(vextorized.toarray())
X_pca = pca.transform(vextorized.toarray())

这是具有实际标签的数据的外观：

labels = [newsgroups.target_names[i] for i in y_train]
sns.scatterplot(X_pca[:,0], X_pca[:, 1], hue=labels, legend='full',palette="Set2")

现在，kmeans：

kmeans = MiniBatchKMeans(init='k-means++', n_clusters=4, max_iter=500, n_init=10, 
                         random_state=777)
y_pred = kmeans.fit_predict(vextorized)
palette = sns.color_palette('bright', len(set(y_pred)))
sns.scatterplot(X_pca[:,0], X_pca[:, 1], hue=y_pred, legend='full', palette=palette)
plt.title('Clustered')

我们在前两个组件上投影中心，并绘制它们：

centers_on_PCs = pca.transform(kmeans.cluster_centers_)
plt.scatter(x=centers_on_PCs[:,0],y=centers_on_PCs[:,1],s=200,c="k",marker="X")

相关问题更多 >

编程相关推荐

热门问题

热门文章