ApacheSpark中使用朴素贝叶斯的java Twitter情绪分析
我正在尝试使用ApacheSpark做一个基本的twitter情绪分析
下面的页面解释了ApacheSpark使用的NaiveBayes函数,它可能是上述问题的候选函数。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
当您查看java示例时, 培训和测试集如下所示:
JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set
我不知道它们是什么数据类型,但我能理解它们是一些非英语输入
我有一个tweet列表
“我爱我的国家。”
“上班的好日子。”
“谷歌浏览器糟透了!”
如何使用naive bayes函数处理文本
任何关于这方面的见解都会有所帮助
# 1 楼答案
LabeledPoint
的格式为(double, Vectors(double[]))
,其中第一个参数是标签,第二个是特征向量(仅非负实值)。但就你的情况而言,这并不匹配。这意味着您必须找到将数据转换为实际值的方法。TFIDF似乎是一种方式。为了更好地理解,您可能有兴趣阅读this示例