限制spark contex中的记录数量

2024-10-06 12:31:09 发布

男 | 程序猿一只，喜欢编程写python代码。

我想减少每个reducer的记录数，并保留结果变量ardd

使用takeSample似乎是显而易见的选择，但是，它返回的是collection，而不是SparkContext对象。

我想出了这个方法：

rdd = rdd.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0])

但是，这种方法速度很慢，效率不高。

有没有一种更聪明的方法来获取一个小样本并保持数据结构为rdd？

Tags：对象方法 lambda map 记录 filter 速度 collection

0条回答

目前没有回答