nlp在Java中构建/运行流式Weka文本分类器

10 月，2 周 Questions & Answers 1395

我们一直在使用Weka Explorer GUI构建一些分类器模型。现在测试已经完成，我们希望在Java应用程序中实现该模型，以便它可以接收新消息

因此，对于新消息，我们需要对消息进行标记化，将消息中的标记与用于为模型构建单词向量的标记进行匹配，然后将该单词向量解析为模型

我们应该如何进行这个过程？有什么例子吗

我们如何处理新标记（即出现在新文本消息中的单词，这些单词不属于用于构建模型的单词向量的一部分）

对于分类器预处理/标记化，我们使用NGram标记器、词干分析器和IDF变换。因此，我们需要弄清楚如何执行这些步骤，然后才能根据要分类的文本创建新实例

作为在浏览器中构建分类器的一个方面，在“更多选项”下有一个选择“输出分类器代码”的按钮，听起来好像它输出Java源代码来构建和使用模型，但是该选项被禁用。使用多个不同的分类器（RF、NB）进行测试，结果不变。我猜它不是为这些实现的

干杯

Python中文网