我有一个sparksqldataframe,并且有一个函数需要应用于partition_col
相同的所有行。在
到目前为止,我知道我可以将DataFrame转换为RDD并在那里应用mapPartitions
。我遇到的问题是可靠地确保当mapPartitions
运行时,所有符合条件的实例都在同一个分区中。在
我尝试过df.repartition(partition_col).rdd.mapPartitions(...)
,但这给我留下了一些空分区,所以我不相信它正在做我想要的。在
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐