拆分apyspark.sql基于一列将数据帧放入多个表中

2024-06-23 02:43:51 发布

男 | 程序猿一只，喜欢编程写python代码。

给予pyspark.sql.dataframe.数据帧x： name day earnings revenue Oliver 1 100 44 Oliver 2 200 69 John 1 144 11 John 2 415 54 John 3 33 10 John 4 82 82

是否可以根据name列（充当索引）将表拆分为两个表，并将两个表嵌套在同一对象下（不确定要使用的确切术语）。所以在上面的例子中，表[0]将是： name day earnings revenue Oliver 1 100 44 Oliver 2 200 69

表[1]将是： name day earnings revenue John 1 144 11 John 2 415 54 John 3 33 10 John 4 82 82

请注意，每个“子表”中的行数可能会有所不同。在

我尝试了以下方法：dict(tuple(x.groupby('name')))这对Pandas数据帧非常有用，但是当我尝试在pyspark.sql数据帧我得到错误：TypeError: 'GroupedData' object is not iterable

任何帮助都将不胜感激。在

干杯

Tags：数据对象方法 name dataframe sql john 例子

1条回答

网友

1楼 · 发布于 2024-06-23 02:43:51

你可以这样走

uniq_names = [x.asDict().values()[0] for x in df.select("name").distinct().collect()]
tables = [df.where(df.name == x) for x in uniq_names]