LDA Gensim OOM Exception 因为大型语料库

2024-09-27 21:28:00 发布

男 | 程序猿一只，喜欢编程写python代码。

我已经讨论过其他线程，其中指定在LDA中内存与numberOfTerms*numberOfTopics成比例。我有两个数据集。在数据集A中，我有25万个文档和大约50万个术语，我可以轻松运行大约500个主题。但在数据集B中，我有大约200万个文档和50万个术语（我们经过一些筛选后得到的），但在这里我只能运行到50个以上的主题，它抛出内存异常。在

所以我只想了解，如果只有术语和主题的数量对内存有影响，为什么文档数量会导致这个问题，有没有快速的解决方法可以避免这个问题。在

{/strong我可以用不同的语料库格式对它进行封装，因为我可以用不同的语料库格式对它进行封装。关键是，在把整个语料库加载到内存中之后，我可以对一些较少的主题运行它。那么有没有什么解决办法可以帮助它运行更多的主题呢。例如，我想调整chunksize可能会有所帮助，但那没用。在

Tags：数据方法内存文档主题数量格式线程

0条回答

目前没有回答

LDA Gensim OOM Exception 因为大型语料库

相关问题更多 >

编程相关推荐

热门问题

热门文章

LDA Gensim OOM Exception 因为大型语料库

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >