Pyspark旧数据帧分区到新Datafram

2024-09-27 07:24:05 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个分区的数据帧，比如df1。我将从df1创建df2和df3。。在

 df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
 df1 =df1.repartition(400, "key")    

 df2 = df.groupBy("col1", "col2").agg(sum(colx))
 df3 = df1.join(df2, ["col1", "col2"])

我想知道df3是否会保留df1的相同分区？还是需要重新分区df3？。在

Tags：数据 key df agg col2 col3 col1 df1

1条回答

网友

1楼 · 发布于 2024-09-27 07:24:05

与df1相比，df3的分区将完全不同。而且（可能）df2将有spark.sql.shuffle.partitions（默认值：200）个分区，而不是400个。在

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

热门问题

尽管Python中的所有内容都是引用，为什么Python导师在没有指针的列表中绘制字符串和整数？
8 个回答
尽管python中的表达式为false，但循环仍在运行
9 个回答
尽管python代码正确，但从nifi ExecuteScript处理器获取语法错误
1 个回答
尽管Python在Neovim中工作得很好，但插件不能识别Neovim中的Python主机
11 个回答
尽管python字典包含了大量的条目，但它并没有增长
5 个回答
尽管python说模块存在，为什么我会得到这个消息？
5 个回答
尽管setuptools和控制盘是最新的，但无法识别singleversionexternallymanaged
5 个回答
尽管stdout和stderr重定向，但未捕获错误消息
10 个回答
尽管Tensorboard的事件太大，但Tensorboard的步骤太少了
10 个回答
尽管tkinter上的变量已更改，但显示未更改
8 个回答
尽管try/except使用Python进行单元测试时出现断言错误
1 个回答
尽管URL是sam，但仍会抛出“达到最大重定向”
4 个回答
尽管url有效，Pandas仍读取url的\u csv错误
11 个回答
尽管while中存在时间延迟，但LINUX线程的CPU利用率为100%（1）
1 个回答
尽管x0在范围内，Scipy优化仍会引发ValueError
6 个回答
尽管xpath正确，但使用selenium单击链接仍不起作用
7 个回答
尽管下载了ffmpeg并设置了路径变量python，但没有后端错误
8 个回答
尽管下载了i，但找不到型号“fr”
1 个回答
尽管下载了plotnine包，但未获取名为“plotnine”的模块时出错
4 个回答
尽管为所有行指定了权重，网格（0）仍不起作用
2 个回答

Pyspark旧数据帧分区到新Datafram

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark旧数据帧分区到新Datafram

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >