我有两个RDD rdd1
和rdd2
rdd1 = [(key1,value11), (key2,value12)]
rdd2 = [(key1, value21), (key3, value22)]
现在我要用rdd1
和rdd2
做一个内部连接,并给出这样一个示例结果
rdd_join = [(key1,value11)]
在sql中是这样的
SELECT rdd1.key,rdd1.value
FROM rdd1
INNER JOIN rdd2
WHERE rdd1.key = rdd2.key
你知道吗?你知道吗
Tags:
但这不会给你你想要的,而是
你上面的例子不是一个连接。您可以通过
joined_rdd.map(lambda l: [l[0], l[1][0]])
或首先使用filter而不是join从连接的数据中获得所需的内容相关问题 更多 >
编程相关推荐