有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

ApacheSpark中使用朴素贝叶斯的java Twitter情绪分析

我正在尝试使用ApacheSpark做一个基本的twitter情绪分析

下面的页面解释了ApacheSpark使用的NaiveBayes函数,它可能是上述问题的候选函数。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当您查看java示例时, 培训和测试集如下所示:

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型,但我能理解它们是一些非英语输入

我有一个tweet列表

“我爱我的国家。”
“上班的好日子。”
“谷歌浏览器糟透了!”

如何使用naive bayes函数处理文本

任何关于这方面的见解都会有所帮助


共 (1) 个答案

  1. # 1 楼答案

    LabeledPoint的格式为(double, Vectors(double[])),其中第一个参数是标签,第二个是特征向量(仅非负实值)。但就你的情况而言,这并不匹配。这意味着您必须找到将数据转换为实际值的方法。TFIDF似乎是一种方式。为了更好地理解,您可能有兴趣阅读this示例