擅长:python、mysql、java
<p>考虑到要执行外部联接,可以尝试以下操作:</p>
<pre><code>from pyspark.sql.functions import concat, col, lit, when
df_join= df1.join(df2,on='id',how='outer').when(isnull(df1.some_string1), ''). when(isnull(df2.some_string2),'').withColumn('new_column',concat(col('some_string1'),lit(''),col('some_string2'))).select('id','new_column')
</code></pre>
<p>(请注意,some_string1和2是指df1和df2数据帧中的some_string列。我建议您用不同的名称来命名它们,而不是用一些\u字符串来命名相同的名称,这样您就可以调用它们了)</p>