我试图优化两个spark数据帧之间的连接查询,我们称它们为df1,df2(公共列“SaleId”上的连接)。
df1非常小(5M),所以我在spark集群的节点之间广播它。
df2非常大(200M行),所以我尝试用“SaleId”对其进行存储/重新分区。在
在Spark中,按列划分数据和按列划分数据有什么区别?在
例如:
分区:
df2 = df2.repartition(10, "SaleId")
铲斗:
^{pr2}$
在每一项技术之后,我都加入了df2和df1。在
我不知道哪一个是正确的技术使用。
谢谢你
Tags:
相关问题 更多 >
编程相关推荐