Spark two RDD加入ISU

2024-07-07 06:54:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个RDD。你知道吗

moviesRDD =[(1,'monster'),(2,'minions 3D'),...] #(movieID,title)
ratingsRDD =[(1,(3,4)),(2,(4,5)),.....]  #(movieID,(numbersofrating,avg_rating))

理想的结果是:

newRDD =[(3,'monster',4),(4,'minions 3D',5),....] #(numbersofrating,title,avg_rating)

我不知道如何得到新的RDD。你知道吗


Tags: titleavgrddrating理想monsterminionsnewrdd
1条回答
网友
1楼 · 发布于 2024-07-07 06:54:40

这应该可以做到:

(moviesRDD
    .join(ratingsRDD) # Join by key
    .values() # Extract values
    .map(lambda x: (x[1][0], x[0], x[1][1]))) # Reshape

相关问题 更多 >