有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java培训和测试字母表不匹配的问题,在使用木槌制作MaxEnt时

我是一个新的木槌和使用它来制作一个MaxEnt模型。我想实现的是,我想把一个文本分为几个类别。(使用类别的示例名称)我的培训数据位于名为fruits_training_data的文件夹中,该文件夹有4个文件:

apples.txt
bananas.txt
oranges.txt
mangoes.txt

首先,我使用这个命令在mallet中导入了这个数据

bin\mallet import-dir --input fruits_training_data --output fruits_training.mallet

我还将每个类别的测试数据放在单独的文件夹和文件中。它的层次结构也是相同的。文件夹名为fruits_testing_data。它与培训文件夹具有相同的文件名。和我对测试数据做的一样

bin\mallet import-dir --input fruits_testing_data --output fruits_testing.mallet

然后我使用这个命令创建MaxEnt模型

bin\mallet train-classifier --training-file fruits_training.mallet --testing-file fruits_testing.mallet --trainer MaxEnt --report test:accuracy

这给了我一个错误:

Training and testing alphabets don't match! at cc.mallet.classify.tui.Vectors2Classify.main(Vectors2Classify.java:27 5)

我搜索了一下,直到现在才找到任何帮助。有人能帮我找出我在哪一步出错吗?我会感谢你的


共 (0) 个答案