ApacheSpark中使用朴素贝叶斯的java Twitter情绪分析

5 月 Questions & Answers 3924

我正在尝试使用ApacheSpark做一个基本的twitter情绪分析

下面的页面解释了ApacheSpark使用的NaiveBayes函数，它可能是上述问题的候选函数。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当您查看java示例时，培训和测试集如下所示：

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型，但我能理解它们是一些非英语输入

我有一个tweet列表

“我爱我的国家。”
“上班的好日子。”
“谷歌浏览器糟透了！”

如何使用naive bayes函数处理文本

任何关于这方面的见解都会有所帮助

Tags:

# 1 楼答案

LabeledPoint的格式为(double, Vectors(double[]))，其中第一个参数是标签，第二个是特征向量（仅非负实值）。但就你的情况而言，这并不匹配。这意味着您必须找到将数据转换为实际值的方法。TFIDF似乎是一种方式。为了更好地理解，您可能有兴趣阅读this示例