spark split应用到4个作业

2024-09-27 07:20:50 发布

您现在位置:Python中文网/ 问答频道 /正文

据我所知,spark通过Action操作分割作业,并基于shuffle操作分割阶段。 但是我得到的作业数很奇怪,这些操作将应用程序分为4个作业。我完全不明白为什么,有人能解释一下原因吗

>>>spark.read.parquet('test_parquet_file').repartition(10).filter("id==1").show()

因为我不能上传缩略图,所以图片链接在这里enter image description here . 我以为上面的代码会产生2个工作, 第一个是spark.read.parquet,这一步看起来不错, 第二个作业应该是组合在一起的rest操作,因为只有show()是一个操作,所以其余的应该在一个作业和两个阶段中, 但是如果我将show()改为collect(),结果将是2个作业,与我的想法完全相同,或者只是删除中间的步骤“filter('id==1')”,那么也将是2个作业,那么这些操作会发生什么,为什么结果是4个作业而不是2个作业,有人能解释一下结果吗


Tags: testid应用程序readshow作业原因action

热门问题