数据集中的大多数记录都被分配到一个集群kmeans clustering

2024-10-03 13:20:02 发布

您现在位置：Python中文网/ 问答频道 /正文

8805

网友

男 | 程序猿一只，喜欢编程写python代码。

我使用tfidf矢量器将文本数据转换为令牌，并对其执行kmeans聚类，将相似的文本数据分组到特定的聚类中。我生成了14个簇。大多数集群包含同质文本数据。但是，一个特定的集群包含三分之一的记录，并且没有同类记录

我尝试使用LSA并在LSA输出上运行kmeans集群，但得到了类似的输出

tfidf_vectorizer=TfidfVectorizer(min_df=5,analyzer='word',stop_words='english',lowercase=True)

train_tfidf_vectorizer=tfidf_vectorizer.fit_transform(train.TERM_ReasonToSearch_String)

clusters = KMeans(n_clusters=14, random_state=42,init='k-means++').fit_predict(train_tfidf_vectorizer)
train['cluster14_Kmeans'] = clusters

train.groupby('cluster14_Kmeans')['cluster14_Kmeans'].count()

输出：

群集9有46/130个非齐次记录

如何改进聚类结果

Tags：数据文本矢量记录集群 train 聚类 fit

0条回答

目前没有回答

数据集中的大多数记录都被分配到一个集群kmeans clustering

相关问题更多 >

编程相关推荐

热门问题

热门文章

数据集中的大多数记录都被分配到一个集群kmeans clustering

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >