我有一个rdd如下
myrdd = sc.parallelize([("A", 2), ("B", 10), ("C", 4), ("A", 8), ("B", 6), ("B", 8), ("C", 10)])
我想找出A, B, C
发生的平均次数。我是说,我预期结果如下
('A', 5) # 2+8/2 = 5
('B', 8) # 10+6+8/3 = 8
('C', 7) # 4+10/2 = 7
如果我用reduceByKey
,我只得到总数
newrdd = myrdd.reduceByKey(lambda x, y: x + y)
list_ = newrdd.collect()
如何仅执行rdd操作
您可以尝试以下操作:
直接引用:Calculating the averages for each KEY in a Pairwise (K,V) RDD in Spark with Python
相关问题 更多 >
编程相关推荐