PySpark：如果单行或添加行是子行，则将行合并到其父行问题的回答

PySpark：如果单行或添加行是子行，则将行合并到其父行

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

对python或大规模处理数据非常陌生。我是新手，任何帮助都将不胜感激 我在pyspark中有两个数据帧 <pre><code>dF1 : total order schedule aggregatedOrderId | totalOrderQuantity | ETA | Quantity xyz | 20 | | abc | 10 | | dF2: detailed order aggregatedOrderId | Quantity | ETA xyz | 10 | 08/01 xyz | 10 | 08/25 abc | 10 | 07/25 output should look like: aggregatedOrderId | totalOrderQuantity | ETA | Quantity xyz | 20 | | xyz.1 | | 08/01| 10 xyz.2 | | 08/25| 10 abc | 10 | 07/25| 10 when there is single child record it has to become a single row in final df and when there are multiple child they go into separate rows with {orderId.[1-9]}. the out of this has to be in a json so I tried something like this. from pyspark.sql import Window window = Window.partitionBy('aggregatedOrderId').orderBy('aggregatedOrderId') resdf2 = df2.withColumn('row_id', F.row_number().over(window)) resdf2 = resdf2.withColumn('agg', F.col('aggregatedOrderId')).withColumn('newRow' ,F.concat(F.col('aggregatedOrderId'), F.lit('.'), F.col('row_id'))).drop('aggregatedOrderId').withColumnRenamed('newColumn', 'aggregatedOrderId') df1 = df1.withColumn('agg', F.col('aggregatedOrderId')) finaldf = df1.join( resdf2 .groupBy("agg") .agg(F.collect_list(F.struct(*resdf2 .columns)).alias("orderSplits")) , ["agg"], 'left').drop('agg') </code></pre> 最后的df类似于，其中orderspits是一个行数组。我将最终的DF作为Json文件编写，供API使用 <pre><code>aggregatedOrderId | totalOrderQuantity | ETA | Quantity | orderSplits </code></pre> 我对如何在只有一行的情况下进行合并感到非常惊讶，并将其保留下来，为多行提供子ID，然后使用orderSplits将其转换为json 感谢任何在这方面帮助我的人

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

看看这个。我分别计算了单子记录和多子记录，并使用union合并它们 <pre><code> from pyspark.sql import SparkSession from pyspark.sql import functions as F from pyspark.sql.window import Window spark = SparkSession.builder \ .appName('so')\ .getOrCreate() sc= spark.sparkContext df1 = sc.parallelize([ ("xyz", 20, '',''), ("abc", 10, '','') ]).toDF(["aggregatedOrderId","totalOrderQuantity", "ETA", "quantity"]) # df1.show() df1_r = df1.withColumnRenamed("aggregatedOrderId", "aggregatedOrderId_par") w_p = Window().partitionBy("aggregatedOrderId_par").orderBy("aggregatedOrderId_par") w1 = Window().partitionBy("aggregatedOrderId") w_c = Window().partitionBy("aggregatedOrderId").orderBy("aggregatedOrderId") df1_1 = df1_r.withColumn("r_no", F.row_number().over(w_p)) # df1_1.show() df2 = sc.parallelize([ ("xyz", 10, '08/01'), ("xyz", 10, '08/05'),("abc", 10, '07/25') ]).toDF(["aggregatedOrderId","Quantity", "ETA"]) df2_c = df2.withColumnRenamed("ETA", "ETA_c").withColumnRenamed("Quantity", "Quantity_c")\ .withColumn("r_no", F.row_number().over(w_c)).withColumn("order_count", F.max("r_no").over(w1)) #calculate single parent has single child df2_2_c_single = df2_c.filter(F.col("order_count")==1) # df2_2_c_single.show() cond = (df1_1.aggregatedOrderId_par==df2_2_c_single.aggregatedOrderId) df_single = df2_2_c_single.join(df1_1,cond , how ='left') df_single_final = df_single.select("aggregatedOrderId", "totalOrderQuantity", F.col("ETA_c").alias("ETA"), F.col("Quantity_c").alias("quantity")) df_single_final.show() # + -+ + -+ + # |aggregatedOrderId|totalOrderQuantity| ETA|quantity| # + -+ + -+ + # | abc| 10|07/25| 10| # + -+ + -+ + #calculate single parent many child dataframe df2_2_gre_1 = df2_c.where(F.col("order_count")>1)\ .withColumn("aggregatedOrderId", F.concat(F.col("aggregatedOrderId"), F.lit('.'), F.col("r_no")))\ .withColumn("totalOrderQuantity", F.lit(''))\ .select("aggregatedOrderId", "totalOrderQuantity", F.col("ETA_c").alias("ETA"), F.col("Quantity_c").alias("quantity")) single_record = df2_c.where(F.col("order_count")==1).select("aggregatedOrderId").collect() single_record_final = [r['aggregatedOrderId'] for r in single_record] df1_without_single_record = df1_1.filter(~F.col("aggregatedOrderId_par").isin(single_record_final))\ .select(F.col("aggregatedOrderId_par").alias("aggregatedOrderId"), "totalOrderQuantity", "ETA", "quantity") df_multi_union = df1_without_single_record.union(df2_2_gre_1) df_multi_union.show() df_final = df_multi_union.union(df_single_final) # + -+ + -+ + # |aggregatedOrderId|totalOrderQuantity| ETA|quantity| # + -+ + -+ + # | xyz| 20| | | # | xyz.1| |08/01| 10| # | xyz.2| |08/05| 10| # + -+ + -+ + df_final.show() # + -+ + -+ + # |aggregatedOrderId|totalOrderQuantity| ETA|quantity| # + -+ + -+ + # | xyz| 20| | | # | xyz.1| |08/01| 10| # | xyz.2| |08/05| 10| # | abc| 10|07/25| 10| # + -+ + -+ + </code></pre>

PySpark：如果单行或添加行是子行，则将行合并到其父行

1 个回答

相关Python问题