- 当前热门话题:
Python repartition
-
本站为您提供最新、最全的repartition的Python教程、文档、代码、资源等相关内容,Python中文网技术交流社区同时还提供学习资源下载,
如:电子书、IDE编辑器软件、编程视频、代码规范标准、WEB开发、GUI、科学计算与人工智能等相关内容。
本文网址:https://cnpython.com/tags/449952
欢迎加入QQ群-->: 979659372
关于repartition 相关联的Python项目和问题:
最新问答
所以我用下面的代码将一个spark RDD保存到一个S3桶中。有没有压缩(gz格式)并保存的方法,而不是将其保存为文本文件。
help_data.repartition(5).saveAsTextFi ...
已阅读: n次
据我所知,spark通过Action操作分割作业,并基于shuffle操作分割阶段。
但是我得到的作业数很奇怪,这些操作将应用程序分为4个作业。我完全不明白为什么,有人能解释一下原因吗
>> ...
已阅读: n次
我有一张很大的桌子,在那里我的星火工作一直在崩溃。我想重新分配它。我有两个变量(id,time),其中我需要确保具有给定id的所有行将被分配给同一个worker。但我有数亿个独特的ID我希望pyspa ...
已阅读: n次
我有一个分区的数据帧,比如df1。我将从df1创建df2和df3。。在
df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
df ...
已阅读: n次
我有一个作业需要在分区的spark数据帧上运行,该过程如下所示:
rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartiti ...
已阅读: n次
这是我面临的问题的一个缩影,我在那里得到了一个错误。让我试着在这里重现。在
我将DataFrame保存为parquet,但是当我从parquet文件重新加载DataFrame,并再次将其保存为parq ...
已阅读: n次
我正在对一个公共id上的两个数据帧进行广播哈希连接
我注意到,当我尝试DataFrame.repartition("id")并将数据帧传递到JOIN查询中时,执行时间比使用DataFrame.writ ...
已阅读: n次
我试图在Spark中实现一个机器学习算法。其基本思想是将数据分成N个分区,并在每个单独的数据集分区上分别学习N个单独的模型。在预测过程中,我们对这些N个模型进行投票,得到它们的o/p,并将它们组合起来 ...
已阅读: n次
我试图优化两个spark数据帧之间的连接查询,我们称它们为df1,df2(公共列“SaleId”上的连接)。
df1非常小(5M),所以我在spark集群的节点之间广播它。
df2非常大(200M行) ...
已阅读: n次
我在5000亿对上使用{}和{}进行{a1}。它对于我当前的集群设置来说太大了,因此,我想批量运行它
我想对数据进行分区,并在每个分区上迭代运行approxSimilarityJoin,这样我的集群就 ...
已阅读: n次
大家好首先我知道这个线程的存在,Task is running on only one executor in spark。
但是这不是我的情况,因为我在数据帧上使用repartition(n)
基本 ...
已阅读: n次
我正在使用pyspark将数据帧保存为拼花文件或csv文件:
def write_df_as_parquet_file(df, path, mode="overwrite"):
df = df ...
已阅读: n次
最新项目