PySpark：如果单行或添加行是子行，则将行合并到其父行问题的回答

PySpark：如果单行或添加行是子行，则将行合并到其父行

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

对python或大规模处理数据非常陌生。我是新手，任何帮助都将不胜感激 我在pyspark中有两个数据帧 <pre><code>dF1 : total order schedule aggregatedOrderId | totalOrderQuantity | ETA | Quantity xyz | 20 | | abc | 10 | | dF2: detailed order aggregatedOrderId | Quantity | ETA xyz | 10 | 08/01 xyz | 10 | 08/25 abc | 10 | 07/25 output should look like: aggregatedOrderId | totalOrderQuantity | ETA | Quantity xyz | 20 | | xyz.1 | | 08/01| 10 xyz.2 | | 08/25| 10 abc | 10 | 07/25| 10 when there is single child record it has to become a single row in final df and when there are multiple child they go into separate rows with {orderId.[1-9]}. the out of this has to be in a json so I tried something like this. from pyspark.sql import Window window = Window.partitionBy('aggregatedOrderId').orderBy('aggregatedOrderId') resdf2 = df2.withColumn('row_id', F.row_number().over(window)) resdf2 = resdf2.withColumn('agg', F.col('aggregatedOrderId')).withColumn('newRow' ,F.concat(F.col('aggregatedOrderId'), F.lit('.'), F.col('row_id'))).drop('aggregatedOrderId').withColumnRenamed('newColumn', 'aggregatedOrderId') df1 = df1.withColumn('agg', F.col('aggregatedOrderId')) finaldf = df1.join( resdf2 .groupBy("agg") .agg(F.collect_list(F.struct(*resdf2 .columns)).alias("orderSplits")) , ["agg"], 'left').drop('agg') </code></pre> 最后的df类似于，其中orderspits是一个行数组。我将最终的DF作为Json文件编写，供API使用 <pre><code>aggregatedOrderId | totalOrderQuantity | ETA | Quantity | orderSplits </code></pre> 我对如何在只有一行的情况下进行合并感到非常惊讶，并将其保留下来，为多行提供子ID，然后使用orderSplits将其转换为json 感谢任何在这方面帮助我的人

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

PySpark：如果单行或添加行是子行，则将行合并到其父行

1 个回答

相关Python问题