限制spark contex中的记录数量

2024-10-06 12:31:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我想减少每个reducer的记录数,并保留结果变量ardd

使用takeSample似乎是显而易见的选择,但是,它返回的是collection,而不是SparkContext对象。

我想出了这个方法:

rdd = rdd.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0])

但是,这种方法速度很慢,效率不高。

有没有一种更聪明的方法来获取一个小样本并保持数据结构为rdd


Tags: 对象方法lambdamap记录filter速度collection