在timeseries流式处理d中创建批处理

2024-09-28 19:10:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我有流式数据

[timestamp; ID; Value1; Value2]

它应该以正确的顺序到达spark(ip:port),并且可以通过ID进行分区

现在,我尝试根据一个条件对流数据进行批处理/分组,即“创建新的RDD并放入流中的所有行(具有相同的ID并按时间戳排序),直到Value1=0”。在

因此,我需要几个RDD/DataFrames/。。。包含由条件(例如{Value1=0})标识的序列:

^{2}$

如何做到这一点?在

如有任何帮助或提示,我们将不胜感激!在


Tags: 数据ipid顺序port时间流式条件
1条回答
网友
1楼 · 发布于 2024-09-28 19:10:27

好吧,据我所知,你需要为你的数据源做这件事

  • 设置一个像kafka这样的队列系统,编写一个自定义分区器,它从数据源获取数据,并使用ID作为分区键。这一定发生在生产者端。在
  • 接下来,您需要设置一个spark流消费者,它连接到这个kafka队列并以微批量方式读取消息。在
  • 每个微批由0个或多个RDD组成,对于每个RDD按键按时间戳排序,并在同一个循环中应用0/1逻辑。在

告诉我这是否有用。干杯。在

相关问题 更多 >