Pyspark旧数据帧分区到新Datafram

2024-09-27 07:24:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个分区的数据帧,比如df1。我将从df1创建df2和df3。。在

 df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
 df1 =df1.repartition(400, "key")    

 df2 = df.groupBy("col1", "col2").agg(sum(colx))
 df3 = df1.join(df2, ["col1", "col2"])

我想知道df3是否会保留df1的相同分区?还是需要重新分区df3?。在


Tags: 数据keydfaggcol2col3col1df1

热门问题