基于列合并两个spark数据帧

DATAFRAME - 1 |-----------------------------------------------------------------------------------| |EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9| |-----------------------------------------------------------------------------------| |A10001 | B | | | | | | | | | |-----------------------------------------------------------------------------------| DATAFRAME - 2 |-----------------------------------------------------------------------------------| |EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9| |-----------------------------------------------------------------------------------| |A10001 | | | | | C | | | | | |B10001 | | | | | | | | |T2 | |A10001 | | | | | | | | B | | |A10001 | | | C | | | | | | | |C10001 | | | | | | C | | | | |-----------------------------------------------------------------------------------|

3条回答

网友

1楼 · 编辑于 2024-10-05 11:30:55

可以使用内部联接

output = df1.join(df2,['EMP_CODE'],how='inner')

也可以在末尾应用distinct来删除重复项。在

^{pr2}$

网友

2楼 · 编辑于 2024-10-05 11:30:55

首先需要聚合各个数据帧。在

from pyspark.sql import functions as F
df1 = df1.groupBy('EMP_CODE').agg(F.concat_ws(" ", F.collect_list(df1.COLUMN1)))

您必须为所有列和所有数据帧编写此代码。然后必须对所有数据帧使用union函数。在

^{pr2}$

然后在那个联合数据帧上重复相同的聚合。在

网友

3楼 · 编辑于 2024-10-05 11:30:55

如果两个df都有join key的列名，可以使用下面的代码

df1.join(df2, "EMP_CODE")

相关问题更多 >

编程相关推荐

热门问题

热门文章