连接条件期间的Pypark内存问题

2024-05-19 05:54:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用spark 2.1.0。我有2个数据帧不超过3 mb。当我尝试在两个数据帧上运行内部连接时,我的所有转换逻辑都能完美地工作。但是当我在两个数据帧上使用RightOuter连接时,我得到了下面的错误。你知道吗

错误

RN for exceeding memory limits. 1.5 GB of 1.5 GB physical memory used. 
Consider boosting spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 ERROR cluster.YarnScheduler: Lost executor 337 on ip-172-
21-1-105.eu-west-1.compute.internal: Container killed by YARN for exceeding 
memory limits. 1.5 GB of 1.5 GB physical memory used. Consider boosting 
spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 WARN scheduler.TaskSetManager: Lost task 34.0 in stage 
283.0 (TID 11396, ip-172-21-1-105.eu-west-1.compute.internal, executor 337): 
ExecutorLostFailure (executor 337 exited caused by one of the running tasks) 
Reason: Container killed by YARN for exceeding memory limits. 1.5 GB of 1.5 
GB physical memory used. Consider boosting 
spark.yarn.executor.memoryOverhead.
17/08/02 02:29:53 WARN server.TransportChannelHandler: Exception in 
connection from /172.21.1.105:50342
java.io.IOException: Connection reset by peer

我试过其他选择 1)定向聚结(xvalue).show() 2) 尝试设置执行器内存,但没有任何效果。你知道吗

这一问题在过去几周一直悬而未决。谁能告诉我哪里出了问题吗


Tags: of数据forbysparkusedyarnmemory
1条回答
网友
1楼 · 发布于 2024-05-19 05:54:03

你能分享一下关于数据集的细节吗。你知道吗

  1. 两个数据集中的行和列数。你知道吗

你试过leftOuterJoin吗,它也会给你同样的错误。你知道吗

谨致问候

尼拉吉

相关问题 更多 >

    热门问题