我有一个分区的数据帧,比如df1。我将从df1创建df2和df3。。在
df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
df1 =df1.repartition(400, "key")
df2 = df.groupBy("col1", "col2").agg(sum(colx))
df3 = df1.join(df2, ["col1", "col2"])
我想知道df3是否会保留df1的相同分区?还是需要重新分区df3?。在
Tags:
与df1相比,df3的分区将完全不同。而且(可能)df2将有
spark.sql.shuffle.partitions
(默认值:200)个分区,而不是400个。在相关问题 更多 >
编程相关推荐