2024-06-26 00:11:53 发布
网友
我试图为每一个主题找到独特的词汇。你知道吗
我使用的是gensim,这是帮助我生成模型的行
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=2, id2word = dictionary)
但是我在两个不同的主题中重复了单词,我希望每个主题有不同的单词
在LDA中,不能按主题强制单词的唯一性,因为每个主题都是词汇表中所有单词的分布。这个分布度量了单词在一个主题中同时出现的概率。因此,没有什么能保证一个词不会在不同的语境中与不同的词同时出现,从而导致词在不同的主题中出现。你知道吗
让我们以这两个文档为例:
在doc1中,python这个词与snake、forest和living同时出现,这可能会给这个词出现在一个主题中的可能性很大,比如说,关于生物学。你知道吗
python
snake
forest
living
在doc2中,单词python与language、programmer和data同时出现,在本例中,这些单词将与计算机科学的主题相关。你知道吗
language
programmer
data
你最终能做的,就是在话题中寻找概率最高的词,以达到你想要的效果。你知道吗
在LDA中,不能按主题强制单词的唯一性,因为每个主题都是词汇表中所有单词的分布。这个分布度量了单词在一个主题中同时出现的概率。因此,没有什么能保证一个词不会在不同的语境中与不同的词同时出现,从而导致词在不同的主题中出现。你知道吗
让我们以这两个文档为例:
在doc1中,
python
这个词与snake
、forest
和living
同时出现,这可能会给这个词出现在一个主题中的可能性很大,比如说,关于生物学。你知道吗在doc2中,单词
python
与language
、programmer
和data
同时出现,在本例中,这些单词将与计算机科学的主题相关。你知道吗你最终能做的,就是在话题中寻找概率最高的词,以达到你想要的效果。你知道吗
相关问题 更多 >
编程相关推荐