如何对PySpark中的分组数据应用自定义函数

2024-10-01 02:40:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用PySpark,有一个数据框,如下例所示:

enter image description here

我想按req分组,并在每个分组上应用一个函数。 我的函数如下所示:

def function(df):
   ...
   model = modelxy.fit(df)
   transformed = model.transform(df)
   ...
   return df

我试着用下面的方法解决它,但是map函数只适用于RDD。但是,我的函数不包括要处理的数据帧:

df_new = df.groupy('req').map(function) #I want to apply the function on each group by and store results in new dataframe

将函数应用于分组数据的最佳方式是什么


Tags: 数据函数mapdfnewmodelreturndef