使用PySp处理配置单元中每个组的数据

1条回答

网友

1楼 · 发布于 2024-10-02 16:26:07

from pyspark.sql import functions as f

df = spark.createDataFrame([['u1', 1, 'a'], ['u1', 2, 'b'], ['u2', 3, 'a'], ['u2', 4, 'b']],
                           schema=['user', 'attr1', 'attr2'])
df = df.groupBy('user').agg(f.collect_list(f.array(df['attr1'], df['attr2'])).alias('array_col'))
df = df.withColumn('len_col', f.size(df['new_col']))
df.show(truncate=False)

+  +                    +   -+                         
|user|array_col                               |len_col|
+  +                    +   -+
|u1  |[WrappedArray(1, a), WrappedArray(2, b)]|2      |
|u2  |[WrappedArray(3, a), WrappedArray(4, b)]|2      |
+  +                    +   -+

编程相关推荐

java使用Jackson解析非同构JSON对象数组
java为什么'Stream<T>：：<A>toArray（IntFunction<A[]>）`接受没有绑定的类型参数A？
java在JavaFX2.0中获取给定布局中的节点大小？
java双链接列表创建节点
java使用HashMap添加、删除和查找
java中push_back（C++）的等效方法是什么？
java在Jetty中运行servlet时获得HTTP 500
用java显示包含图像和文本的页面的最简单文档格式
swing从选项卡窗格Java中的不同选项卡访问数据
字符串Java帮助检查登录类使用。CSV文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用PySp处理配置单元中每个组的数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >