LSI主题一致性的“好”值是什么?

2024-09-28 22:27:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用gensimpython库来处理小语料库(每次大约1500篇新闻文章)。假设我对创建一组关于同一新闻的文章感兴趣。在

因此,对于每一篇文章的语料库,我都会进行标记,检测搭配,词干,然后输入一个小词典(大约20k个标记),我已经通过了一个TFIDF模型。在

最后利用TFIDF语料库建立了语料库的LSI模型,并借助gensim的文档相似度函数得到了很好的结果。在

但我很好奇,对LSI进行了一些一致性检查:

lsi_topics = [[word for word, prob in topic] for topicid, topic in 
lsi.show_topics(formatted=False)]
lsi_coherence = CoherenceModel(topics=lsi_topics[:10], texts=corpus, dictionary=dictionary, window_size=10).get_coherence()
logger.info("lsi coherence: %.3f" % lsi_coherence)

我总是得到0.45左右的值,这看起来很弱。在

所以我想知道如何解释这个连贯性值?当您只需要索引中的文档与索引本身的相似性(因此查询是来自语料库的完整文档)时,这个值有意义吗?在

编辑:我尝试了不同的方法来进行文本预处理,比如在输入短语类之前将每个文档拆分成真实的句子,生成双元组,不管是否删除重音符号,在某些情况下,我可以得到一个0.55左右的一致性值,所以至少我想它可以帮助找到最有效的方法来处理原始数据。。。在


Tags: in文档标记模型for文章新闻word