（py）触发跨多个ID的数据帧重新分区

1条回答

网友

1楼 · 发布于 2024-09-27 07:18:49

让我们使用explain来查看spark在调用repartition时做了什么：

>>> spark.range(20).repartition("id").explain()
== Physical Plan ==
Exchange hashpartitioning(id#0L, 200)
+- *(1) Range (0, 20, step=1, splits=8)

Exchange hashpartitioning(id#0L, 200)意味着将数据洗牌到200个分区中。行结束时所在的分区是通过执行id.hashCode() % 200来确定的。如果您的数据没有偏差，那么分布应该相当均匀。200是spark.sql.shuffle.partitions的默认值，它决定了洗牌后生成的分区数。要将该值更改为400，您可以更改配置的值be dospark.conf.set("spark.sql.shuffle.partitions", 400)或dorepartition(400, "id")。事实上，如果你有很多数据，200可能不够

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

相关问题更多 >

编程相关推荐

热门问题

热门文章

（py）触发跨多个ID的数据帧重新分区

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >