LSI主题一致性的“好”值是什么？

2024-09-28 22:27:26 发布

您现在位置：Python中文网/ 问答频道 /正文

1537

网友

男 | 程序猿一只，喜欢编程写python代码。

我使用gensimpython库来处理小语料库（每次大约1500篇新闻文章）。假设我对创建一组关于同一新闻的文章感兴趣。在

因此，对于每一篇文章的语料库，我都会进行标记，检测搭配，词干，然后输入一个小词典（大约20k个标记），我已经通过了一个TFIDF模型。在

最后利用TFIDF语料库建立了语料库的LSI模型，并借助gensim的文档相似度函数得到了很好的结果。在

但我很好奇，对LSI进行了一些一致性检查：

lsi_topics = [[word for word, prob in topic] for topicid, topic in 
lsi.show_topics(formatted=False)]
lsi_coherence = CoherenceModel(topics=lsi_topics[:10], texts=corpus, dictionary=dictionary, window_size=10).get_coherence()
logger.info("lsi coherence: %.3f" % lsi_coherence)

我总是得到0.45左右的值，这看起来很弱。在

所以我想知道如何解释这个连贯性值？当您只需要索引中的文档与索引本身的相似性（因此查询是来自语料库的完整文档）时，这个值有意义吗？在

编辑：我尝试了不同的方法来进行文本预处理，比如在输入短语类之前将每个文档拆分成真实的句子，生成双元组，不管是否删除重音符号，在某些情况下，我可以得到一个0.55左右的一致性值，所以至少我想它可以帮助找到最有效的方法来处理原始数据。。。在

Tags： in 文档标记模型 for 文章新闻 word

0条回答

目前没有回答

LSI主题一致性的“好”值是什么？

相关问题更多 >

编程相关推荐

热门问题

热门文章

LSI主题一致性的“好”值是什么？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >