具有特定条件的时间戳的唯一ID

+------------------+ | User| timestamp| +------------------+ | user0| 100 | | user1| 102 | | user0| 109 | | user2| 103 | | user1| 108 | | user0| 119 | | user0| 140 | | user0| 142 | +------------------+

+----------------------+ | User| timestamp| ID| +----------------------+ | user0| 100 | 1| | user1| 102 | 2| | user0| 109 | 1| | user2| 103 | 3| | user1| 108 | 2| | user0| 119 | 1| | user0| 140 | 4| | user0| 142 | 4| +----------------------+

+----------------------+ | User| timestamp| ID| +----------------------+ | user0| 100 | 1| | user1| 102 | 3| | user0| 109 | 1| | user2| 103 | 4| | user1| 108 | 3| | user0| 119 | 1| | user0| 140 | 2| | user0| 142 | 2| +----------------------+

1条回答

网友

1楼 · 发布于 2024-09-27 07:28:01

您可以先为每个用户生成一个ID，然后在不同的用户之间组合它们，如下所示

import pyspark.sql.functions as F
from pyspark.sql.window import Window

w = Window.partitionBy('User').orderBy('timestamp')

df2 = df.withColumn(
    'begin',
    F.coalesce(
        F.col('timestamp') - F.lag('timestamp').over(w) > 10, 
        F.lit(True)
    ).cast('int')
).withColumn(
    'userid',
    F.sum('begin').over(w.rowsBetween(Window.unboundedPreceding, 0))
).withColumn(
    'ID',
    F.dense_rank().over(Window.orderBy('userid', 'User'))
)

# If you just want to keep your columns, do:
# df2 = df2.select('User', 'timestamp', 'ID')

df2.show()
+  -+    -+  -+   + -+
| User|timestamp|begin|userid| ID|
+  -+    -+  -+   + -+
|user0|      100|    1|     1|  1|
|user0|      109|    0|     1|  1|
|user0|      119|    0|     1|  1|
|user1|      102|    1|     1|  2|
|user1|      108|    0|     1|  2|
|user2|      103|    1|     1|  3|
|user0|      140|    1|     2|  4|
|user0|      142|    0|     2|  4|
+  -+    -+  -+   + -+

相关问题更多 >

编程相关推荐

热门问题

热门文章