有没有办法用pyspark隐藏我的df看起来像
df = sc.parallelize([
['Naman', True,200],
['Jason', True,100],
['Jason', False,200],
['Omar', True,100],
['Omar', False,200],
['Omar', True,200],
['Naman', False,200]
]).toDF(('emp_name', 'class','score'))
df.show()
然而,如果可能的话,如果没有groupby,它已经在唯一类和emp_名称级别上聚合,它只是我想创建一个额外的列,并将emp_名称行减少到唯一级别
+--------+-----------+-----------+
|emp_name|class1Score|class2Score|
+--------+-----------+-----------+
| Naman| 200| 200|
| Jason| 100| 200|
| Omar| 200| 200|
+--------+-----------+-----------+
除非数据已经被
emp_name
分区(在您的情况下不是,这样的分区需要洗牌),或者数据是通过emp_name
将数据重新格式化为所需格式(与之前相同)从表加载的,例如使用pivot需要洗牌
相关问题 更多 >
编程相关推荐