Python中基于Scipy层次聚类的文本聚类

2024-09-26 22:10:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个文本语料库,每一行包含1000多篇文章。我尝试在python中使用Scipy使用层次聚类来生成相关文章的集群。 这是我用来做聚类的代码

# Agglomerative Clustering
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as hac
tree = hac.linkage(X.toarray(), method="complete",metric="euclidean")
plt.clf()
hac.dendrogram(tree)
plt.show() 

我得到了这个阴谋 dendrogram

然后我用fcluster()在第三层砍掉了树

^{pr2}$

我得到了这个输出: [2 2 2…,2 2 2]

我的问题是如何找到每个集群中最常见的10个单词,以便为每个集群推荐一个主题?在


Tags: 代码文本importtreematplotlibas文章集群
1条回答
网友
1楼 · 发布于 2024-09-26 22:10:56

您可以执行以下操作:

  1. 将结果(您的clustering变量)与输入(1000多篇文章)对齐。在
  2. 使用pandas库,您可以使用groupby function,并将集群作为其键。在
  3. 每组(使用get_group function),为每个 你遇到的词。在
  4. 现在,您可以按降序对字典中的单词计数进行排序,并获得所需的最常用单词数。在

祝你好运,如果你想找的话,请接受我的回答。在

相关问题 更多 >

    热门问题