从时间戳创建路由标识符

2024-10-04 03:27:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我有来自远程通信设备的数据,其中包含一个驾驶员ID、一个时间戳和一些与我的示例无关的传感器数据

我想从这些数据中创建一个路由标识符和一个记录计数器,以便为每个驱动程序计算每个路由的统计信息。我们正在HortonWorksHDP2.2.6.0平台的一个纱线集群上使用PySpark1.2.1

我的数据看起来是这样的,它是成对的RDD,这两个元素是关键:

| driverID | timestamp |  
| D1        | 1         |  
| D1        | 2         |  
| D1        | 6         |  
| D1        | 8         |  
| D2        | 1         |  
| D2        | 3         |  
| D2        | 4         |  
| D2        | 7         |  

我想得到runID和sequenceID列,假设3个时间单位的延迟开始一个新的运行

| driverID | timestamp | runID | sequenceID  
| D1        | 1         | 1     |1  
| D1        | 2         | 1     |2  
| D1        | 6         | 2     |1  
| D1        | 8         | 2     |2  
| D2        | 1         | 1     |1  
| D2        | 3         | 1     |2  
| D2        | 4         | 1     |3  
| D2        | 7         | 2     |1  

你建议我怎么办?这将最终用于一个TB大小的数据集。驱动程序ID是一个字符串,timestamp实际上是一个datetime对象

谢谢你的帮助


Tags: 数据id示例路由远程驱动程序时间传感器