PySpark:标记df1中存在于df2中的特定列的行?

2024-09-29 19:29:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Pypsark。我有两个数据帧,分别称为df1和df2。我希望df1创建一个新的列来标记df1的列(a,B)中哪些行在df2的列D,E中存在,哪些行不存在。1标记存在,否则为0。转换的一个例子是:

df1

^{tb1}$

df2

^{tb2}$

结果df1

^{tb3}$

df1的焦点列是A、B,df2的焦点列是D、E。这些列中只有第二行匹配,因此df1将其新创建的exist列标记为1。 我怎样才能做到这一点


Tags: 数据标记例子exist焦点df1df2tb2
1条回答
网友
1楼 · 发布于 2024-09-29 19:29:29

df1.createOrReplaceTempView(“表1”)

df2.createOrReplaceTempView(“表2”)

spark.sql(“选择a、b、c,当d为null且e为null时,则选择0,否则1个端点存在于表1左侧外部联接表2上的a=d和b=e”).show()

相关问题 更多 >

    热门问题