2024-10-06 12:31:09 发布
网友
我想减少每个reducer的记录数,并保留结果变量ardd
rdd
使用takeSample似乎是显而易见的选择,但是,它返回的是collection,而不是SparkContext对象。
takeSample
collection
SparkContext
我想出了这个方法:
rdd = rdd.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0])
但是,这种方法速度很慢,效率不高。
有没有一种更聪明的方法来获取一个小样本并保持数据结构为rdd?
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐