在Spark中划分和bucketing有什么区别?

2024-09-27 07:20:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图优化两个spark数据帧之间的连接查询,我们称它们为df1,df2(公共列“SaleId”上的连接)。 df1非常小(5M),所以我在spark集群的节点之间广播它。 df2非常大(200M行),所以我尝试用“SaleId”对其进行存储/重新分区。在

在Spark中,按列划分数据和按列划分数据有什么区别?在

例如:

分区:

df2 = df2.repartition(10, "SaleId")

铲斗:

^{pr2}$

在每一项技术之后,我都加入了df2和df1。在

我不知道哪一个是正确的技术使用。 谢谢你


Tags: 数据节点集群技术sparkdf1分区df2

热门问题