使用rdd的Pyspark数据帧循环占用了太多时间

2024-10-06 12:49:52 发布

男 | 程序猿一只，喜欢编程写python代码。

使用sparksql，我从GCP中的bigquery得到了spark数据帧，它有几百万行。例如：

df = spark.sql("select id, concated_name from one_table group by id ...")

为了循环所有行，我使用rdd.收集但这需要很多时间。例如：

for row in df.rdd.collect()

有没有办法循环spark数据帧中的所有行？在我看来，有可能把spark数据框中的大数据拆分成几个，然后逐个循环处理。这样就不会出现超时问题。或者可能有最快最好的方法来循环所有的。你知道吗

Tags：数据 name from id df sql table bigquery

0条回答

目前没有回答