无法在sp中连续执行2个groupBy

sc = SparkContext("local", "Simple App") file = sc.textFile("histories_2week9.csv") csvById12Rdd=file.map(lambda (id1,id2,value): ((id1,id2),value)).groupByKey() csvById1Rdd=csvById12Rdd.map(lambda ((id1,id2),group):(id1, (id2,group))).groupByKey() def printit(one): id1, twos=one print("Id1:{}".format(id1)) for two in twos: id2, values=two print("Id1:{} Id2:{}".format(id1,id2)) for value in values: print("Id1:{} Id2:{} Value:{}".format(id1,id2,value)) csvById12Rdd.first().foreach(printit)

1条回答

网友

1楼 · 发布于 2024-10-01 02:32:05

groupby返回一个RDD（Key，Iterable[Value]），可以反过来吗？在

按id1和id2分组，得到RDD（（id1，id2），Iterable[Value]）
然后按id1单独分组得到RDD（id1，Iterable[（Id2，Iterable[Value]））

比如：

csv=[(1,1,"One","Un"),(1,2,"Two","Deux"),(2,1,"Three","Trois"),(2,1,"Four","Quatre")]
csvRdd=sc.parallelize(csv)
# Step 1
csvById12Rdd=csvRdd.map(lambda (id1,id2,value1,value2): ((id1,id2),(value1,value2))).groupByKey()
# Step 2
csvById1Rdd=csvById12Rdd.map(lambda ((id1,id2),group):(id1, (id2,group))).groupByKey()
# Print    
def printit(one):
    id1, twos=one
    print("Id1:{}".format(id1))
    for two in twos:
        id2, values=two
        print("Id1:{} Id2:{}".format(id1,id2))
        for value1,value2 in values:
            print("Id1:{} Id2:{} Values:{} {}".format(id1,id2,value1,value2))

csvById1Rdd.foreach(printit)

相关问题更多 >

编程相关推荐

热门问题

热门文章