数据集中的大多数记录都被分配到一个集群kmeans clustering

2024-10-03 13:20:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用tfidf矢量器将文本数据转换为令牌,并对其执行kmeans聚类,将相似的文本数据分组到特定的聚类中。我生成了14个簇。大多数集群包含同质文本数据。但是,一个特定的集群包含三分之一的记录,并且没有同类记录

我尝试使用LSA并在LSA输出上运行kmeans集群,但得到了类似的输出

tfidf_vectorizer=TfidfVectorizer(min_df=5,analyzer='word',stop_words='english',lowercase=True)

train_tfidf_vectorizer=tfidf_vectorizer.fit_transform(train.TERM_ReasonToSearch_String)

clusters = KMeans(n_clusters=14, random_state=42,init='k-means++').fit_predict(train_tfidf_vectorizer)
train['cluster14_Kmeans'] = clusters

train.groupby('cluster14_Kmeans')['cluster14_Kmeans'].count()

输出:

Clustering Output

群集9有46/130个非齐次记录

如何改进聚类结果


Tags: 数据文本矢量记录集群train聚类fit