pandas groupby.apply to pyspark

def custom_aggregation_pyspark(x,queries): names={} for k, v in regles_calcul.items(): plus = x.query(v["plus_credit"])['OBNETCRE'].sum() + x.query(v["plus_debit"])['OBNETDEB'].sum() minus = x.query(v["minus_credit"])['OBNETCRE'].sum() + x.query(v["minus_debit"])['OBNETDEB'].sum() names[k]= plus-minus return pd.Series(names, index=list(names.keys())) df = df.groupby(['LBUDG']).apply(custom_aggregation_pandas, queries ).sum()

{'first_queries': { 'plus_credit': "classe_compte_rg2 in ('237', '238')", 'plus_debit': "classe_compte_rg2 in ('237', '238')", 'minus_credit': "classe_compte_rg2 in ('237', '238')", 'minus_debit': "classe_compte_rg1 in ('20', '21', '23')" } }

def custom_aggregation_pyspark(x,queries): x.createOrReplaceTempView("df") names={} for k , v in queries.items(): plus = spark.sql("SELECT * FROM df WHERE "+ v["plus_credit"]).select('OBNETCRE').groupby('OBNETCRE').sum().collect() + spark.sql("SELECT * FROM df WHERE "+ v["plus_debit"]).select('OBNETDEB').groupby('OBNETDEB').sum().collect() minus= spark.sql("SELECT * FROM df WHERE "+ v["minus_credit"]).select('OBNETCRE').groupby('OBNETCRE').sum().collect() + spark.sql("SELECT * FROM df WHERE "+ v["minus_debit"]).select('OBNETDEB').groupby('OBNETDEB').sum().collect() names[k]= plus-minus return pd.Series(names, index=list(names.keys())) df.groupby("LBUDG").agg(custom_aggregation_pyspark(df,queries))

1条回答

网友

1楼 · 发布于 2024-10-03 02:45:14

您可以使用epxr来计算queriesdict中传递的条件，并使用条件聚合来计算总和。下面是一个与您在《熊猫》中给出的示例相同的示例：

from pyspark.sql import functions as F


def custom_aggregation_pyspark(df, regles_calcul):
    df1 = df.groupBy("LBUDG") \
        .agg(
        *[
            ((F.sum(F.when(F.expr(v["plus_credit"]), F.col("OBNETCRE")).otherwise(0)) +
              F.sum(F.when(F.expr(v["plus_debit"]), F.col("OBNETDEB")).otherwise(0))) -
             (F.sum(F.when(F.expr(v["minus_credit"]), F.col("OBNETCRE")).otherwise(0)) +
              F.sum(F.when(F.expr(v["minus_debit"]), F.col("OBNETDEB")).otherwise(0)))
             ).alias(k)

            for k, v in regles_calcul.items()
        ]
    )

    return df1


df = custom_aggregation_pyspark(df, queries)

相关问题更多 >

编程相关推荐

热门问题

热门文章