我有2个PySpark数据帧(DF1
和DF2
),我想循环两个数据帧中的一些列(colA
,colB
来自{colZ
来自{
DF1:
colA colB colC
1 1 A
3 1 Y
DF2:
^{pr2}$输出:
column value
colA 1
colA 3
colB 1
colZ A21
colZ Y33
此方法有效,但尝试创建for循环并收集结果的非重复值无效。。(因为我有50多个数据帧)
df_combined = DF1.select('colA').dropDuplicates(['colA']).withColumn("new_column",lit("colA")).union(DF1.select('colB').dropDuplicates(['colB']).withColumn("new_column", lit("colB"))).union(DF2.select('colZ').dropDuplicates(['colZ']).withColumn("new_column", lit("colZ")))
df_combined.withColumnRenamed("colA", "column").withColumnRenamed("new_column", "value").show()
我不太清楚你想在这里达到什么目的,但我会这样做的。在
相关问题 更多 >
编程相关推荐