通过Gensim查找不可见文档的主题 - 问答 - Python中文网

通过Gensim查找不可见文档的主题

2024-06-14 05:20:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在使用Gensim进行一些大规模的主题建模。我很难理解如何确定未查看（非索引）文档的预测主题。例如：我在LSA（和LDA）空间中有2500万个文档转换为向量。我现在想找出一个新文档的主题，我们称之为x

根据Gensim文档，我可以使用：

topics = lsi[doc(x)]

其中doc（x）是将x转换为向量的函数。

但问题是，上面的变量topics返回一个向量。如果我将x与其他文档进行比较，向量是有用的，因为它允许我找到它们之间的余弦相似性，但我无法实际返回与x本身相关联的特定单词。

是我遗漏了什么，还是根西姆没有这个能力？

谢谢你

编辑

拉尔曼有答案。

我可以通过以下方式展示主题：

for t in topics:
    print lsi.show_topics(t[0])

Tags：函数文档主题 doc 空间建模相似性单词

2条回答

网友

1楼 · 编辑于 2024-06-14 05:20:16

LSI模型上[]返回的向量实际上是(topic, weight)对的列表。可以通过方法^{}检查主题

网友

2楼 · 编辑于 2024-06-14 05:20:16

I was able to show the topics by using:
for t in topics: print lsi.show_topics(t[0])

只想指出解决方案代码中一个很小但很重要的错误：您需要使用show_topic（）函数，而不是show_topic**s**（）函数。

注：我知道这应该是一个评论，而不是一个答案，但我目前的声誉评分还不允许评论！

相关问题更多 >

编程相关推荐

热门问题

热门文章