如何在PySpark groupByKey（）中对迭代器中的值求和

3条回答

网友

1楼 · 编辑于 2024-10-02 02:26:20

你也可以这样做：

wordCountsGrouped = wordsGrouped.groupByKey().map(lambda (x,y):(x,map(sum,y))).map(lambda (x,y):(x,y[0]))

有点晚了，但我刚找到解决办法

网友

2楼 · 编辑于 2024-10-02 02:26:20

你可以简单地用sum来mapValues：

example.groupByKey().mapValues(sum)

尽管在这种特殊情况下reduceByKey更有效：

example.reduceByKey(lambda x, y: x + y)

或者

from operator import add

example.reduceByKey(add)

网友

3楼 · 编辑于 2024-10-02 02:26:20

加上@zero323的答案，另一个解决方案是：

example.groupByKey().map(lambda (x,iterator) : (x,len(iterator)))