如何在pyspark中获取顺序id - 问答 - Python中文网

如何在pyspark中获取顺序id

2024-06-18 11:06:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个pyspark数据帧，ID重复且不连续。我想添加一列顺序id，即下面的第二列

id | seq
1  |1
3  |2
7  |3
3  |2
3  |2

我发现实现这一目标的唯一方法是

window = Window.orderBy(col('id'))
df1 = df.select('id').distinct().withColumn('seq', F.row_number().over(window))
df.join(df1, on='id')

但这似乎不是最好的办法。有没有其他更快的方法来实现这一点

Tags：数据方法 id 目标 df 顺序 col window

1条回答

网友

1楼 · 发布于 2024-06-18 11:06:47

使用dense_rank窗口函数

Example:

from pyspark.sql.window import *
from pyspark.sql.functions import *
w=Window.orderBy('id')

df.show()
#+ -+
#| id|
#+ -+
#|  1|
#|  3|
#|  3|
#|  3|
#|  7|
#+ -+
df.withColumn("seq",dense_rank().over(w)).show()
#+ -+ -+
#| id|seq|
#+ -+ -+
#|  1|  1|
#|  3|  2|
#|  3|  2|
#|  3|  2|
#|  7|  3|
#+ -+ -+

相关问题更多 >

编程相关推荐

热门问题

热门文章