我应该使用tfidf语料库还是仅仅使用语料库来推理使用LDA的文档？

2024-10-02 02:34:57 发布

您现在位置：Python中文网/ 问答频道 /正文

1988

网友

男 | 程序猿一只，喜欢编程写python代码。

我只是想知道，当我们在gensim中使用LDA推理文档时，是使用TFIDF语料库还是只使用语料库

这里有一个例子

from gensim import corpora, models
import numpy.random
numpy.random.seed(10)

doc0 = [(0, 1), (1, 1)]
doc1 = [(0,1)] 
doc2 = [(0, 1), (1, 1)]
doc3 = [(0, 3), (1, 1)]

corpus = [doc0,doc1,doc2,doc3]
dictionary = corpora.Dictionary(corpus)

tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf.save('x.corpus_tfidf')

corpus_tfidf = corpora.MmCorpus.load('x.corpus_tfidf')

lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2)

#which one i should use from this   
**corpus_lda = lda[corpus]**          #this one 
**corpus_LDA = lda[corpus_tfidf ]**   #or this one?


corpus_lda.save('x.corpus_lda')

for i,j in enumerate(corpus_lda):
    print j, corpus[i]

Tags： from import numpy models random corpus this one

1条回答

网友

1楼 · 发布于 2024-10-02 02:34:57

根据Gensim's mailing list（特别是最后一篇文章），标准的程序是使用一包单词语料库。你可以使用一个TF-IDF语料库，但似乎不清楚这会产生什么样的效果。在

我应该使用tfidf语料库还是仅仅使用语料库来推理使用LDA的文档？

相关问题更多 >

编程相关推荐

热门问题

热门文章

我应该使用tfidf语料库还是仅仅使用语料库来推理使用LDA的文档？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >