我使用tfidf矢量器将文本数据转换为令牌,并对其执行kmeans聚类,将相似的文本数据分组到特定的聚类中。我生成了14个簇。大多数集群包含同质文本数据。但是,一个特定的集群包含三分之一的记录,并且没有同类记录
我尝试使用LSA并在LSA输出上运行kmeans集群,但得到了类似的输出
tfidf_vectorizer=TfidfVectorizer(min_df=5,analyzer='word',stop_words='english',lowercase=True)
train_tfidf_vectorizer=tfidf_vectorizer.fit_transform(train.TERM_ReasonToSearch_String)
clusters = KMeans(n_clusters=14, random_state=42,init='k-means++').fit_predict(train_tfidf_vectorizer)
train['cluster14_Kmeans'] = clusters
train.groupby('cluster14_Kmeans')['cluster14_Kmeans'].count()
输出:
群集9有46/130个非齐次记录
如何改进聚类结果
目前没有回答
相关问题 更多 >
编程相关推荐