我正在尝试对2500万个整数进行排序。但是当我试图使用collect()
时,它给了我一个OutofMemory Error: Java Heap Space
错误。以下是源代码:
sc = SparkContext("local", "pyspark")
numbers = sc.textFile("path of text file")
counts = numbers.flatMap(lambda x: x.split()).map(lambda x: (int(x), 1)).sortByKey(lambda x:x)
num_list = []
for (num, count) in counts.collect():
num_list.append(num)
我哪里出错了?文本文件的大小是147MB。所有设置均为默认设置。我使用的是Spark v0.9.0。在
编辑:Works文件有250万个整数。但问题从500万开始。也测试了1000万,得到了同样的误差。在
下面是堆栈跟踪:
^{pr2}$
目前没有回答
相关问题 更多 >
编程相关推荐