Python中基于Scipy层次聚类的文本聚类 - 问答 - Python中文网

Python中基于Scipy层次聚类的文本聚类

2024-09-26 22:10:56 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个文本语料库，每一行包含1000多篇文章。我尝试在python中使用Scipy使用层次聚类来生成相关文章的集群。这是我用来做聚类的代码

# Agglomerative Clustering
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as hac
tree = hac.linkage(X.toarray(), method="complete",metric="euclidean")
plt.clf()
hac.dendrogram(tree)
plt.show()

我得到了这个阴谋 dendrogram

然后我用fcluster（）在第三层砍掉了树

^{pr2}$

我得到了这个输出： [2 2 2…，2 2 2]

我的问题是如何找到每个集群中最常见的10个单词，以便为每个集群推荐一个主题？在

Tags：代码文本 import tree matplotlib as 文章集群

1条回答

网友

1楼 · 发布于 2024-09-26 22:10:56

您可以执行以下操作：

将结果（您的clustering变量）与输入（1000多篇文章）对齐。在
使用pandas库，您可以使用groupby function，并将集群作为其键。在
每组（使用get_group function），为每个你遇到的词。在
现在，您可以按降序对字典中的单词计数进行排序，并获得所需的最常用单词数。在

祝你好运，如果你想找的话，请接受我的回答。在

相关问题更多 >

编程相关推荐

热门问题

热门文章