如何使用pyspark collect_list函数检索所有列

from pyspark.sql import functions as F fieldnames=data1.schema.names names1= list() for item in names: if item != 'names': names1.append(item) z=data1.groupby('names').agg(F.collect_list(names1)) z.show()

2条回答

网友

1楼 · 编辑于 2024-10-04 03:28:53

使用struct在调用groupBy之前组合列

假设您有一个数据帧

df = spark.createDataFrame(sc.parallelize([(0,1,2),(0,4,5),(1,7,8),(1,8,7)])).toDF("a","b","c")

df = df.select("a", f.struct(["b","c"]).alias("newcol"))
df.show()
+---+------+
|  a|newcol|
+---+------+
|  0| [1,2]|
|  0| [4,5]|
|  1| [7,8]|
|  1| [8,7]|
+---+------+
df = df.groupBy("a").agg(f.collect_list("newcol").alias("collected_col"))
df.show()
+---+--------------+
|  a| collected_col|
+---+--------------+
|  0|[[1,2], [4,5]]|
|  1|[[7,8], [8,7]]|
+---+--------------+

只能对单个列执行聚合操作。

在聚合之后，您可以收集结果并对其进行迭代以分离组合的列，从而生成索引dict 用于分隔组合列的udf。

from pyspark.sql.types import *
def foo(x):
    x1 = [y[0] for y in x]
    x2 = [y[1] for y in x]
    return(x1,x2)

st = StructType([StructField("b", ArrayType(LongType())), StructField("c", ArrayType(LongType()))])
udf_foo = udf(foo, st)
df = df.withColumn("ncol", 
                  udf_foo("collected_col")).select("a",
                  col("ncol").getItem("b").alias("b"), 
                  col("ncol").getItem("c").alias("c"))
df.show()

+---+------+------+
|  a|     b|     c|
+---+------+------+
|  0|[1, 4]|[2, 5]|
|  1|[7, 8]|[8, 7]|
+---+------+------+

网友

2楼 · 编辑于 2024-10-04 03:28:53

实际上我们可以在Pyspark2.2中完成。

首先，我们需要创建一个常量列（“Temp”），groupBy与该列（“Temp”）并应用agg by pass iterable*exprs，collect_list的表达式在其中存在。

下面是代码：

import pyspark.sql.functions as ftions
import functools as ftools

def groupColumnData(df, columns):
      df = df.withColumn("Temp", ftions.lit(1))
      exprs = [ftions.collect_list(colName) for colName in columns]
      df = df.groupby('Temp').agg(*exprs)
      df = df.drop("Temp")
      df = df.toDF(*columns)
      return df

输入数据：

df.show()
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  0|  1|  2|
|  0|  4|  5|
|  1|  7|  8|
|  1|  8|  7|
+---+---+---+

输出数据：

df.show()

    +------------+------------+------------+
    |           a|           b|           c|
    +------------+------------+------------+
    |[0, 0, 1, 1]|[1, 4, 7, 8]|[2, 5, 8, 7]|
    +------------+------------+------------+

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pyspark collect_list函数检索所有列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >