我正在使用Gensim进行一些大规模的主题建模。我很难理解如何确定未查看(非索引)文档的预测主题。例如:我在LSA(和LDA)空间中有2500万个文档转换为向量。我现在想找出一个新文档的主题,我们称之为x
根据Gensim文档,我可以使用:
topics = lsi[doc(x)]
其中doc(x)是将x转换为向量的函数。
但问题是,上面的变量topics返回一个向量。如果我将x与其他文档进行比较,向量是有用的,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相关联的特定单词。
是我遗漏了什么,还是根西姆没有这个能力?
谢谢你
编辑
拉尔曼有答案。
我可以通过以下方式展示主题:
for t in topics:
print lsi.show_topics(t[0])
LSI模型上} 检查主题
[]
返回的向量实际上是(topic, weight)
对的列表。可以通过方法^{只想指出解决方案代码中一个很小但很重要的错误:您需要使用show_topic()函数,而不是show_topic**s**()函数。
注:我知道这应该是一个评论,而不是一个答案,但我目前的声誉评分还不允许评论!
相关问题 更多 >
编程相关推荐