使用sparksql,我从GCP中的bigquery得到了spark数据帧,它有几百万行。 例如:
df = spark.sql("select id, concated_name from one_table group by id ...")
为了循环所有行,我使用rdd.收集但这需要很多时间。 例如:
for row in df.rdd.collect()
有没有办法循环spark数据帧中的所有行?在我看来,有可能把spark数据框中的大数据拆分成几个,然后逐个循环处理。这样就不会出现超时问题。或者可能有最快最好的方法来循环所有的。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐