在我的猪代码中,我这样做:
all_combined = Union relation1, relation2,
relation3, relation4, relation5, relation 6.
我想对斯帕克也这么做。然而,不幸的是,我看到我不得不继续成对地做:
first = rdd1.union(rdd2)
second = first.union(rdd3)
third = second.union(rdd4)
# .... and so on
是否有一个union运算符允许我一次操作多个RDD:
例如union(rdd1, rdd2,rdd3, rdd4, rdd5, rdd6)
这是一个关于方便的问题。
如果这些是RDD,则可以使用
SparkContext.union
方法:不存在
DataFrame
等价物,但这只是一个简单的一行:如果在RDD上使用
SparkContext.union
并且重新创建DataFrame
可能是避免issues related to the cost of preparing an execution plan的更好选择:不幸的是,这是Spark中
UNION
表的唯一方法。但是不是你可以用一种更干净的方式来执行它,比如:
您还可以使用addition来实现rdd之间的联合
相关问题 更多 >
编程相关推荐