用Pysp优化多列

2024-09-28 22:22:33 发布

您现在位置:Python中文网/ 问答频道 /正文

根据某些条件,我必须向PySpark数据帧添加多个列。长话短说,代码看起来像这个愚蠢的例子:

for col in df.columns:
    df = df.withColumn('{}_without_otliers'.format(col), F.lit(1))

问题是,当我没有那么多列(例如15或20列)时,它的性能很好,但是当我有100列时,spark需要很长时间才能开始工作,而且DAG看起来很大。如何优化?我有没有办法“强制”spark每10列执行一次操作?你知道吗


Tags: columns数据代码informatdfforcol