有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java Spark groupByKey其他选项

我们需要使用Spark控制巨大的数据集。该控件包括按键对数据进行分组(我们用于此:groupByKey()),然后对每个分组的数据进行循环以检查它们之间的一致性

例如,下面的csv文件包含要检查的列:

id;dateBegin;dateEnd;event;dateEvent
1;12/02/2015;30/05/2015;active;05/04/2015
1;12/06/2015;30/07/2015;dead;05/07/2015
2;12/02/2016;30/07/2016;dead;05/04/2015

我们使用了JavaRdd<String>.map().groupByKey(),但是对于大型数据集,Spark会冻结

还有其他选择吗? 多谢各位


共 (1) 个答案

  1. # 1 楼答案

    根据这份文件:Avoid GroupByKey

    reduceByKey() is good for larger data sets as, Spark (before shuffling data) can combine the output with a common key. But, groupByKey() shuffles the data (k-v pairs) creating unnecessary data sets.

    寻找更好的(其他)替代groupByKey的方法。像

    • 康比基
    • 民谣