在Google Colab中成功运行预训练的LDAMallet模型,并推断出看不见文档的主题

2024-09-26 17:51:54 发布

您现在位置:Python中文网/ 问答频道 /正文

大家好,我在将经过培训的LDA木槌模型(使用Gensim V3.8.3[因为V4.0.0已经放弃了木槌包装器])传输到本地培训的Colab在线实例时遇到了一些问题,该实例获得了一致的

ValueError: EOF: reading array data, expected xx byes got yy

使用joblib加载保存的模型时

在保存我的模型Gensim Mallet wrapper时,您可以传递字符串参数preference,该参数指定输出敏感Mallet相关文件的路径:

modelcorpus.txt
modeldoctopics.txt
modelinferencer.mallet
modelstate.mallet.gz (when unzipped produces modelstate.mallet)
modeltopickeys.txt

然后我使用joblib导出:

The corpus
id2word dictionary
mallet model itself

当尝试在不同的控制台中本地重新运行时,我能够加载模型并推断新文档的主题,但是在将所有这些文件上载到Colab实例后,我得到了上述错误

有没有人熟悉木槌的复杂性和在Colab上工作预先训练过的模型

多谢各位


Tags: 文件实例模型txt参数colabldavalueerror

热门问题