Python repartition_专题 - Python中文网

当前热门话题： Python repartition: 本站为您提供最新、最全的repartition的Python教程、文档、代码、资源等相关内容，Python中文网技术交流社区同时还提供学习资源下载，如：电子书、IDE编辑器软件、编程视频、代码规范标准、WEB开发、GUI、科学计算与人工智能等相关内容。

本文网址：https://cnpython.com/tags/449952
欢迎加入QQ群-->： 979659372

关于repartition 相关联的Python项目和问题：

所以我用下面的代码将一个spark RDD保存到一个S3桶中。有没有压缩（gz格式）并保存的方法，而不是将其保存为文本文件。 help_data.repartition(5).saveAsTextFi ...

2024-09-27 已阅读: n次

据我所知，spark通过Action操作分割作业，并基于shuffle操作分割阶段。但是我得到的作业数很奇怪，这些操作将应用程序分为4个作业。我完全不明白为什么，有人能解释一下原因吗 >&gt ...

2024-09-27 已阅读: n次

我有一张很大的桌子，在那里我的星火工作一直在崩溃。我想重新分配它。我有两个变量（id，time），其中我需要确保具有给定id的所有行将被分配给同一个worker。但我有数亿个独特的ID我希望pyspa ...

2024-09-27 已阅读: n次

我有一个分区的数据帧，比如df1。我将从df1创建df2和df3。。在 df1 = df1.withColumn("key", concat("col1", "col2", "col3")) df ...

2024-09-27 已阅读: n次

我有一个作业需要在分区的spark数据帧上运行，该过程如下所示： rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartiti ...

2024-09-27 已阅读: n次

这是我面临的问题的一个缩影，我在那里得到了一个错误。让我试着在这里重现。在我将DataFrame保存为parquet，但是当我从parquet文件重新加载DataFrame，并再次将其保存为parq ...

2024-09-27 已阅读: n次

我正在对一个公共id上的两个数据帧进行广播哈希连接我注意到，当我尝试DataFrame.repartition("id")并将数据帧传递到JOIN查询中时，执行时间比使用DataFrame.writ ...

2024-09-27 已阅读: n次

我试图在Spark中实现一个机器学习算法。其基本思想是将数据分成N个分区，并在每个单独的数据集分区上分别学习N个单独的模型。在预测过程中，我们对这些N个模型进行投票，得到它们的o/p，并将它们组合起来 ...

2024-09-27 已阅读: n次

我试图优化两个spark数据帧之间的连接查询，我们称它们为df1，df2（公共列“SaleId”上的连接）。 df1非常小（5M），所以我在spark集群的节点之间广播它。 df2非常大（200M行） ...

2024-09-27 已阅读: n次

我在5000亿对上使用{}和{}进行{a1}。它对于我当前的集群设置来说太大了，因此，我想批量运行它我想对数据进行分区，并在每个分区上迭代运行approxSimilarityJoin，这样我的集群就 ...

2024-09-27 已阅读: n次

大家好首先我知道这个线程的存在，Task is running on only one executor in spark。但是这不是我的情况，因为我在数据帧上使用repartition(n) 基本 ...

2024-09-27 已阅读: n次

我正在使用pyspark将数据帧保存为拼花文件或csv文件： def write_df_as_parquet_file(df, path, mode="overwrite"): df = df ...

2024-09-27 已阅读: n次