我有两个rdd
rdd1 =[('1', 3428), ('2', 2991), ('3', 2990), ('4', 2883), ('5', 2672), ('5', 2653)]
rdd2 = [['1', 'Toy Story (1995)'], ['2', 'Jumanji (1995)'], ['3', 'Grumpier Old Men (1995)']]
我想执行一个操作,将第一个rdd的第一个元素与第二个rdd的第二个元素关联起来
我的最终结果是这样的
[(''Toy Story (1995)'', 3428), ('Jumanji (1995)', 2991), ('Grumpier Old Men (1995)', 2990)]
请给我一个方法来执行这个
您可以使用列表理解:
如果为了提高性能而处理集群上的大数据,可以使用广播和数据帧操作来完成
如果需要,还可以转换回RDD
使用联接和映射:
相关问题 更多 >
编程相关推荐