java Spark groupByKey其他选项

1 周，4 日 Questions & Answers 86

我们需要使用Spark控制巨大的数据集。该控件包括按键对数据进行分组（我们用于此：groupByKey()），然后对每个分组的数据进行循环以检查它们之间的一致性

例如，下面的csv文件包含要检查的列：

id;dateBegin;dateEnd;event;dateEvent
1;12/02/2015;30/05/2015;active;05/04/2015
1;12/06/2015;30/07/2015;dead;05/07/2015
2;12/02/2016;30/07/2016;dead;05/04/2015

我们使用了JavaRdd<String>.map().groupByKey()，但是对于大型数据集，Spark会冻结

还有其他选择吗？多谢各位

Tags:

共 (1) 个答案

# 1 楼答案
根据这份文件：Avoid GroupByKey

reduceByKey() is good for larger data sets as, Spark (before shuffling data) can combine the output with a common key. But, groupByKey() shuffles the data (k-v pairs) creating unnecessary data sets.

寻找更好的（其他）替代groupByKey的方法。像
- 康比基
- 民谣

有 Java 编程相关的问题?

java Spark groupByKey其他选项

共 (1) 个答案

# 1 楼答案