从PySpark sh设置应用程序内存大小

2024-10-05 10:07:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试对2500万个整数进行排序。但是当我试图使用collect()时,它给了我一个OutofMemory Error: Java Heap Space错误。以下是源代码:

sc = SparkContext("local", "pyspark")
numbers = sc.textFile("path of text file")
counts = numbers.flatMap(lambda x: x.split()).map(lambda x: (int(x), 1)).sortByKey(lambda x:x)
num_list = []
for (num, count) in counts.collect():
    num_list.append(num)

我哪里出错了?文本文件的大小是147MB。所有设置均为默认设置。我使用的是Spark v0.9.0。在

编辑:Works文件有250万个整数。但问题从500万开始。也测试了1000万,得到了同样的误差。在

下面是堆栈跟踪:

^{pr2}$

Tags: lambda排序错误space整数errorjavanum

热门问题