如何解释scikit learn的LDA方法转换的结果?

2024-09-29 19:21:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是scikitlearn的最新dirichletallocation模型。X是由100个文档组成的矩阵,具有5000个特性(100x5000)。我运行了以下代码:

from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_topics = 5)
X_new = lda.fit_transform(X)

现在X\u new是一个100 X 5矩阵,它应该是每个文档的主题分布。但是,我不知道如何解释实际值。每个数组的和不是100,因此它本身不是一个分布。例如,前两个文档的数组是:

^{pr2}$

我该如何解释这些数字?在


Tags: 代码from文档模型importnew矩阵数组
1条回答
网友
1楼 · 发布于 2024-09-29 19:21:25

我觉得这个问题更适合这里:https://datascience.stackexchange.com

但是,既然您在这里问过,每个单元格都是这个文档适合n个主题中的一个(在您的例子中,是5)。 它不是标准化的,因为每个文档都是针对每个主题分别进行度量的(因此,理论上所有主题都可以得到0分)。如果你想把所有的主题都规范化的话,你就可以把它规范化。在

相关问题 更多 >

    热门问题