Groupby和collect_列表根据PySpark中的另一列维护顺序

+----------+------------+------------+------------+ | Name | dateCol1 | dateCol2 | dateCol3 | +----------+------------+------------+------------+ | user1 | 2018-01-01 | 2018-01-10 | 2018-01-01 | | user1 | 2018-01-11 | 2018-01-20 | 2018-01-01 | | user2 | 2018-01-11 | 2018-01-20 | 2018-01-11 | | user1 | 2019-01-21 | 2018-01-30 | 2018-01-01 | +----------+------------+------------+------------+

+------------+------------+----------------+ | dateCol1 | dateCol2 | List | +------------+------------+----------------+ | 2018-01-01 | 2018-01-10 | [user1] | | 2018-01-11 | 2018-01-20 | [user1, user2] | | 2019-01-21 | 2018-01-30 | [user1] | +------------+------------+----------------+

1条回答

网友

1楼 · 发布于 2024-09-29 19:27:43

您可以尝试：

spark_df.orderBy('dateCol3', ascending=True).groupBy('dateCol1', 'dateCol2').agg(F.collect_list('Name'))

或者，尽管这有点过分，但您可以使用窗口：

from pyspark.sql import Window as w

spark_df.select('dateCol1', 'dateCol2', F.collect_list('Name').over(w.partitionBy(['dateCol1','dateCol2']).orderBy(F.col('dateCol3'))).alias('Name')).distinct()

相关问题更多 >

编程相关推荐

热门问题

热门文章