如何基于使用Pyspark的条件从另一个表更新表的Spark DataFrame列值

No,Name,Sal,Address,Dept,Join_Date 11,Sam,1000,ind,IT,2/11/2019 22,Tom,2000,usa,HR,2/11/2019 33,Kom,3500,uk,IT,2/11/2019 44,Nom,4000,can,HR,2/11/2019 55,Vom,5000,mex,IT,2/11/2019 66,XYZ,5000,mex,IT,2/11/2019

No,Name,Sal,Address,Dept,Join_Date 11,Sam,1000,ind,ITA,2/11/2019 22,Tom,2500,usa,HRA,2/11/2019 33,Kom,3000,uk,ITA,2/11/2019 44,Nom,4600,can,HRA,2/11/2019 55,Vom,8000,mex,ITA,2/11/2019 77,XYZ,5000,mex,ITA,2/11/2019

1条回答

网友

1楼 · 发布于 2024-09-28 01:30:21

您可以执行左连接并合并生成的Sal列，secdf优先于basedf：

import pyspark.sql.functions as F

result = basedf.alias('basedf').join(
    secdf.alias('secdf'),
    ['No', 'Name'],
    'left'
).select(
    [F.coalesce('secdf.Sal', 'basedf.Sal').alias('Sal')
     if c == 'Sal'
     else F.coalesce('secdf.Dept', 'basedf.Dept').alias('Dept')
     if c == 'Dept'
     else f'basedf.{c}'
     for c in basedf.columns]
)

result.show()
+ -+  +  +   -+  +    -+
| No|Name| Sal|Address|Dept|Join_Date|
+ -+  +  +   -+  +    -+
| 11| Sam|1000|    ind| ITA|2/11/2019|
| 22| Tom|2500|    usa| HRA|2/11/2019|
| 33| Kom|3000|     uk| ITA|2/11/2019|
| 44| Nom|4600|    can| HRA|2/11/2019|
| 55| Vom|8000|    mex| ITA|2/11/2019|
| 66| XYZ|5000|    mex|  IT|2/11/2019|
+ -+  +  +   -+  +    -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何基于使用Pyspark的条件从另一个表更新表的Spark DataFrame列值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >