如何在每个主题中获得唯一的单词?

2024-06-26 00:11:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图为每一个主题找到独特的词汇。你知道吗

我使用的是gensim,这是帮助我生成模型的行

ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=2, id2word = dictionary)

但是我在两个不同的主题中重复了单词,我希望每个主题有不同的单词


Tags: 模型主题dictionarymodelscorpus单词num词汇
1条回答
网友
1楼 · 发布于 2024-06-26 00:11:53

在LDA中,不能按主题强制单词的唯一性,因为每个主题都是词汇表中所有单词的分布。这个分布度量了单词在一个主题中同时出现的概率。因此,没有什么能保证一个词不会在不同的语境中与不同的词同时出现,从而导致词在不同的主题中出现。你知道吗

让我们以这两个文档为例:

  • Python是一种生活在森林里的美丽的蛇。你知道吗
  • doc2:Python是程序员和数据科学家使用的一种漂亮的语言。你知道吗

在doc1中,python这个词与snakeforestliving同时出现,这可能会给这个词出现在一个主题中的可能性很大,比如说,关于生物学。你知道吗

在doc2中,单词pythonlanguageprogrammerdata同时出现,在本例中,这些单词将与计算机科学的主题相关。你知道吗

你最终能做的,就是在话题中寻找概率最高的词,以达到你想要的效果。你知道吗

相关问题 更多 >