给予pyspark.sql.dataframe.数据帧x:
name day earnings revenue
Oliver 1 100 44
Oliver 2 200 69
John 1 144 11
John 2 415 54
John 3 33 10
John 4 82 82
是否可以根据name列(充当索引)将表拆分为两个表,并将两个表嵌套在同一对象下(不确定要使用的确切术语)。所以在上面的例子中,表[0]将是:
name day earnings revenue
Oliver 1 100 44
Oliver 2 200 69
表[1]将是:
name day earnings revenue
John 1 144 11
John 2 415 54
John 3 33 10
John 4 82 82
请注意,每个“子表”中的行数可能会有所不同。在
我尝试了以下方法:dict(tuple(x.groupby('name')))
这对Pandas数据帧非常有用,但是当我尝试在pyspark.sql数据帧我得到错误:TypeError: 'GroupedData' object is not iterable
任何帮助都将不胜感激。在
干杯
你可以这样走
相关问题 更多 >
编程相关推荐