我尝试在Spark中按两列分组,并使用reduceByKey,如下所示:
pairsWithOnes = (rdd.map(lambda input: (input.column1,input.column2, 1)))
print pairsWithOnes.take(20)
上面的maps命令工作正常,生成三列,第三列都是一列。我试着用前两栏总结第三栏的内容:
^{pr2}$
但是,运行最后一个print命令会抛出一个错误“值太多,无法解包”。有人能给我指点正确的方法把它减少两列吗?在
Tags:
据我所知,您的目标是计数
(column1,input.column2)
对,您的输入大致如下所示:结果:
^{pr2}$首先要按a分组(第1列,第2列):
结果:
剩下的都很简单
reduceByKey
:结果
相关问题 更多 >
编程相关推荐