用Pysp优化多列 - 问答 - Python中文网

用Pysp优化多列

2024-09-28 22:22:33 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

根据某些条件，我必须向PySpark数据帧添加多个列。长话短说，代码看起来像这个愚蠢的例子：

for col in df.columns:
    df = df.withColumn('{}_without_otliers'.format(col), F.lit(1))

问题是，当我没有那么多列（例如15或20列）时，它的性能很好，但是当我有100列时，spark需要很长时间才能开始工作，而且DAG看起来很大。如何优化？我有没有办法“强制”spark每10列执行一次操作？你知道吗

Tags： columns 数据代码 in format df for col

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章