我只是想知道,当我们在gensim中使用LDA推理文档时,是使用TFIDF语料库还是只使用语料库
这里有一个例子
from gensim import corpora, models
import numpy.random
numpy.random.seed(10)
doc0 = [(0, 1), (1, 1)]
doc1 = [(0,1)]
doc2 = [(0, 1), (1, 1)]
doc3 = [(0, 3), (1, 1)]
corpus = [doc0,doc1,doc2,doc3]
dictionary = corpora.Dictionary(corpus)
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf.save('x.corpus_tfidf')
corpus_tfidf = corpora.MmCorpus.load('x.corpus_tfidf')
lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=dictionary, num_topics=2)
#which one i should use from this
**corpus_lda = lda[corpus]** #this one
**corpus_LDA = lda[corpus_tfidf ]** #or this one?
corpus_lda.save('x.corpus_lda')
for i,j in enumerate(corpus_lda):
print j, corpus[i]
根据Gensim's mailing list(特别是最后一篇文章),标准的程序是使用一包单词语料库。你可以使用一个TF-IDF语料库,但似乎不清楚这会产生什么样的效果。在
相关问题 更多 >
编程相关推荐