LDA Gensim OOM Exception 因为大型语料库

2024-09-27 21:28:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经讨论过其他线程,其中指定在LDA中内存与numberOfTerms*numberOfTopics成比例。我有两个数据集。 在数据集A中,我有25万个文档和大约50万个术语,我可以轻松运行大约500个主题。但在数据集B中,我有大约200万个文档和50万个术语(我们经过一些筛选后得到的),但在这里我只能运行到50个以上的主题,它抛出内存异常。在

所以我只想了解,如果只有术语和主题的数量对内存有影响,为什么文档数量会导致这个问题,有没有快速的解决方法可以避免这个问题。在

{/strong我可以用不同的语料库格式对它进行封装,因为我可以用不同的语料库格式对它进行封装。关键是,在把整个语料库加载到内存中之后,我可以对一些较少的主题运行它。那么有没有什么解决办法可以帮助它运行更多的主题呢。例如,我想调整chunksize可能会有所帮助,但那没用。在


Tags: 数据方法内存文档主题数量格式线程

热门问题