java使用日志似然性来比较不同的mallet主题模型？

11 月，2 周 Questions & Answers 243

我试图找出是否有可能——或者最好的方法是什么——以编程方式比较使用mallet创建的不同主题模型，以确定给定语料库的“最佳”拟合模型

API提供了一种确定生成模型的对数似然性的方法。见f.e.：#modelLogLikelihood()

好吧，可以根据保留数据的对数可能性来比较不同的模型。但这种方法计算的是。。我想是整个模型吧？我已经检查了source code，但这并没有将光明带入黑暗

所以我的问题是：上述方法的输出是否适合比较不同的主题建模算法，如分层PAM、LDA、DMR等。。。找出哪种模型（理论上）代表语料库的最佳方式

对数似然计算的目的是提供一个可在不同模型之间进行比较的度量。也就是说，我不建议这样使用它

首先，如果你真的关心语言模型的预测可能性，你应该使用一个最近的深层神经模型

其次，可能性对平滑参数非常敏感，因此获得一致差异的事实可能只是您自己设置的产物。像标记化和多词术语这样的预处理决策也会比模型的选择产生更大的影响

第三，如果你真的对主题模型输出感兴趣，你应该清楚你想从模型中得到什么，以及模型的哪些特征使它对你的特定需求有用。我想建议人们把主题模型看作是绘制地图，而不是拟合回归。地图的最佳分辨率取决于你想去哪里

最后，使用最简单的模型几乎肯定会更好

Python中文网