使用reduceByKey中的一些键来减少火花

2024-09-30 22:26:18 发布

您现在位置:Python中文网/ 问答频道 /正文

在将一个大文件加载到RDD0之后,我创建(非常耗时)RDD1

((k1,k2), value)

并应用reduceByKey。对于RRD0,我需要创建一个RDD2

^{pr2}$

它的创建同样耗时,并应用另一个reduceByKey。在

我可以创建RDD12对吗

((k1,k2,k3), value)

然后先在(k1,k2)上应用reduceByKey,然后再在{}上应用{},这样我就节省了不创建{}和{}的时间?在


Tags: 文件value时间k2k1节省耗时k3
1条回答
网友
1楼 · 发布于 2024-09-30 22:26:18

第一个操作应该是flatMap,然后返回

[((k1,k2), value1), ((k1,k3)), value2)]

然后运行reduceByKey,你就会得到你的结果

相关问题 更多 >