活动任务在Spark UI中为负数

2024-09-29 01:19:47 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用时,我看到了:

enter image description here

在这里您可以看到活动任务是一个负数(总任务数和已完成任务数之差)。在

这个错误的来源是什么?在


节点,我有很多执行器。然而,似乎有一个任务似乎已经闲置(我看不到任何进展),而另一个相同的任务正常完成。在


这也是相关的:我可以确认正在创建许多任务,因为我使用的是1k或2k执行器。在

我得到的错误有点不同:

16/08/15 20:03:38 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one of the SparkListeners is too slow and cannot keep up with the rate at which tasks are being started by the scheduler.
16/08/15 20:07:18 WARN TaskSetManager: Lost task 20652.0 in stage 4.0 (TID 116652, myfoo.com): FetchFailed(BlockManagerId(61, mybar.com, 7337), shuffleId=0, mapId=328, reduceId=20652, message=
org.apache.spark.shuffle.FetchFailedException: java.util.concurrent.TimeoutException: Timeout waiting for task.

Tags: theincomtask节点错误来源error
2条回答

在来自S. Owen的Spark dev邮件列表中,有几个与此问题相关的JIRA票据,例如:

  1. ResourceManager UI showing negative value
  2. NodeManager reports negative running containers

此行为通常发生在(多个)执行器在失败后重新启动时发生。在


当应用程序使用太多执行器时,也会发生这种行为。使用coalesce()修复此情况。在

确切地说,在Prepare my bigdata with Spark via Python中,我有超过40万个分区。我使用了data.coalesce(1024),正如在RDD重新分区中所描述的那样,我能够绕过Spark UI bug。当涉及到分布式计算和Spark时,分区是一个非常重要的概念。在

在我的问题中,我还使用了1-2k执行器,所以它一定是相关的。在

注意:分区太少,您可能会遇到这种情况Spark Java Error: Size exceeds Integer.MAX_VALUE。在

这是一个火花问题。它发生在执行器在失败后重新启动时发生。同样的JIRA问题已经产生。您可以从https://issues.apache.org/jira/browse/SPARK-10141链接中获取更多有关该产品的详细信息。在

相关问题 更多 >