使用rdd的Pyspark数据帧循环占用了太多时间

2024-10-06 12:49:52 发布

您现在位置:Python中文网/ 问答频道 /正文

使用sparksql,我从GCP中的bigquery得到了spark数据帧,它有几百万行。 例如:

df = spark.sql("select id, concated_name from one_table group by id ...")

为了循环所有行,我使用rdd.收集但这需要很多时间。 例如:

for row in df.rdd.collect()

有没有办法循环spark数据帧中的所有行?在我看来,有可能把spark数据框中的大数据拆分成几个,然后逐个循环处理。这样就不会出现超时问题。或者可能有最快最好的方法来循环所有的。你知道吗


Tags: 数据namefromiddfsqltablebigquery