我有来自远程通信设备的数据,其中包含一个驾驶员ID、一个时间戳和一些与我的示例无关的传感器数据
我想从这些数据中创建一个路由标识符和一个记录计数器,以便为每个驱动程序计算每个路由的统计信息。我们正在HortonWorksHDP2.2.6.0平台的一个纱线集群上使用PySpark1.2.1
我的数据看起来是这样的,它是成对的RDD,这两个元素是关键:
| driverID | timestamp |
| D1 | 1 |
| D1 | 2 |
| D1 | 6 |
| D1 | 8 |
| D2 | 1 |
| D2 | 3 |
| D2 | 4 |
| D2 | 7 |
我想得到runID和sequenceID列,假设3个时间单位的延迟开始一个新的运行
| driverID | timestamp | runID | sequenceID
| D1 | 1 | 1 |1
| D1 | 2 | 1 |2
| D1 | 6 | 2 |1
| D1 | 8 | 2 |2
| D2 | 1 | 1 |1
| D2 | 3 | 1 |2
| D2 | 4 | 1 |3
| D2 | 7 | 2 |1
你建议我怎么办?这将最终用于一个TB大小的数据集。驱动程序ID是一个字符串,timestamp实际上是一个datetime对象
谢谢你的帮助
目前没有回答
相关问题 更多 >
编程相关推荐