java Spark groupByKey其他选项
我们需要使用Spark控制巨大的数据集。该控件包括按键对数据进行分组(我们用于此:groupByKey()
),然后对每个分组的数据进行循环以检查它们之间的一致性
例如,下面的csv文件包含要检查的列:
id;dateBegin;dateEnd;event;dateEvent
1;12/02/2015;30/05/2015;active;05/04/2015
1;12/06/2015;30/07/2015;dead;05/07/2015
2;12/02/2016;30/07/2016;dead;05/04/2015
我们使用了JavaRdd<String>.map().groupByKey()
,但是对于大型数据集,Spark会冻结
还有其他选择吗? 多谢各位
# 1 楼答案
根据这份文件:Avoid GroupByKey
寻找更好的(其他)替代
groupByKey
的方法。像