我有一个文本语料库,每一行包含1000多篇文章。我尝试在python中使用Scipy使用层次聚类来生成相关文章的集群。 这是我用来做聚类的代码
# Agglomerative Clustering
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as hac
tree = hac.linkage(X.toarray(), method="complete",metric="euclidean")
plt.clf()
hac.dendrogram(tree)
plt.show()
我得到了这个阴谋
然后我用fcluster()在第三层砍掉了树
^{pr2}$我得到了这个输出: [2 2 2…,2 2 2]
我的问题是如何找到每个集群中最常见的10个单词,以便为每个集群推荐一个主题?在
您可以执行以下操作:
clustering
变量)与输入(1000多篇文章)对齐。在groupby function
,并将集群作为其键。在get_group function
),为每个 你遇到的词。在祝你好运,如果你想找的话,请接受我的回答。在
相关问题 更多 >
编程相关推荐