从PySpark sh设置应用程序内存大小

2024-10-05 10:07:09 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试对2500万个整数进行排序。但是当我试图使用collect()时，它给了我一个OutofMemory Error: Java Heap Space错误。以下是源代码：

sc = SparkContext("local", "pyspark")
numbers = sc.textFile("path of text file")
counts = numbers.flatMap(lambda x: x.split()).map(lambda x: (int(x), 1)).sortByKey(lambda x:x)
num_list = []
for (num, count) in counts.collect():
    num_list.append(num)

我哪里出错了？文本文件的大小是147MB。所有设置均为默认设置。我使用的是Spark v0.9.0。在

编辑：Works文件有250万个整数。但问题从500万开始。也测试了1000万，得到了同样的误差。在

下面是堆栈跟踪：

^{pr2}$

Tags： lambda 排序错误 space 整数 error java num

0条回答

目前没有回答

从PySpark sh设置应用程序内存大小

相关问题更多 >

编程相关推荐

热门问题

热门文章

从PySpark sh设置应用程序内存大小

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >