在timeseries流式处理d中创建批处理 - 问答 - Python中文网

在timeseries流式处理d中创建批处理

2024-09-28 19:10:27 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有流式数据

[timestamp; ID; Value1; Value2]

它应该以正确的顺序到达spark（ip:port），并且可以通过ID进行分区

现在，我尝试根据一个条件对流数据进行批处理/分组，即“创建新的RDD并放入流中的所有行（具有相同的ID并按时间戳排序），直到Value1=0”。在

因此，我需要几个RDD/DataFrames/。。。包含由条件（例如{Value1=0}）标识的序列：

^{2}$

如何做到这一点？在

如有任何帮助或提示，我们将不胜感激！在

Tags：数据 ip id 顺序 port 时间流式条件

1条回答

网友

1楼 · 发布于 2024-09-28 19:10:27

好吧，据我所知，你需要为你的数据源做这件事

设置一个像kafka这样的队列系统，编写一个自定义分区器，它从数据源获取数据，并使用ID作为分区键。这一定发生在生产者端。在
接下来，您需要设置一个spark流消费者，它连接到这个kafka队列并以微批量方式读取消息。在
每个微批由0个或多个RDD组成，对于每个RDD按键按时间戳排序，并在同一个循环中应用0/1逻辑。在

告诉我这是否有用。干杯。在

相关问题更多 >

编程相关推荐

热门问题

热门文章