在pyspark datafram中循环两列时向新列添加值

+-----------------------------+--- |id|amount| dates | active | +-----------------------------+--- | X| 0|2019-05-01| 0 | | X| 120|2019-06-01| 1 | | Y| 60|2019-06-01| 1 | | X| 0|2019-07-01| 0 | | Y| 0|2019-07-01| 0 | | Z| 50|2019-06-01| 1 | | Y| 0|2019-07-01| 0 | +-----------------------------+---

+-----------------------------+-----------+ |id|amount| dates | active | p3mactive | +-----------------------------+-----------+ | X| 0|2019-05-01| 0 | 0 | | X| 120|2019-06-01| 1 | 0 | | Y| 60|2019-06-01| 1 | 0 | | X| 0|2019-07-01| 0 | 1 | | Y| 0|2019-07-01| 0 | 1 | | Z| 50|2019-06-01| 1 | 0 | | Y| 0|2019-07-01| 0 | 1 | +-----------------------------+-----------+

1条回答

网友

1楼 · 发布于 2024-10-06 11:23:11

可以使用^{}和^{}使用^{}函数来执行此操作：

from pyspark.sql.window import Window
from pyspark.sql.functions import when, col, lag

w = Window().partitionBy("id").orderBy("dates")
df = df.withColumn("p3mactive", when(
    (lag(df.active,1).over(w) == 1)| 
    (lag(df.active,2).over(w) == 1) | 
    (lag(df.active,3).over(w) == 1), 1).otherwise(0))

您不能在pyspark数据帧上循环，但可以使用Window跨越它们。可以使用when应用条件，也可以使用lag查看以前的行，使用lead查看将来的行。如果x之前的行不存在，条件的计算结果为false，您将得到一个0，正如您的用例所提到的那样。你知道吗

我希望这有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章