通过Gensim查找不可见文档的主题

2024-06-14 05:20:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Gensim进行一些大规模的主题建模。我很难理解如何确定未查看(非索引)文档的预测主题。例如:我在LSA(和LDA)空间中有2500万个文档转换为向量。我现在想找出一个新文档的主题,我们称之为x

根据Gensim文档,我可以使用:

topics = lsi[doc(x)]

其中doc(x)是将x转换为向量的函数。

但问题是,上面的变量topics返回一个向量。如果我将x与其他文档进行比较,向量是有用的,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相关联的特定单词。

是我遗漏了什么,还是根西姆没有这个能力?

谢谢你

编辑

拉尔曼有答案。

我可以通过以下方式展示主题:

for t in topics:
    print lsi.show_topics(t[0])

Tags: 函数文档主题doc空间建模相似性单词
2条回答

LSI模型上[]返回的向量实际上是(topic, weight)对的列表。可以通过方法^{}检查主题

I was able to show the topics by using:

for t in topics: print lsi.show_topics(t[0])

只想指出解决方案代码中一个很小但很重要的错误:您需要使用show_topic()函数,而不是show_topic**s**()函数。

注:我知道这应该是一个评论,而不是一个答案,但我目前的声誉评分还不允许评论!

相关问题 更多 >