2024-09-28 19:10:27 发布
网友
我有流式数据
[timestamp; ID; Value1; Value2]
它应该以正确的顺序到达spark(ip:port),并且可以通过ID进行分区
现在,我尝试根据一个条件对流数据进行批处理/分组,即“创建新的RDD并放入流中的所有行(具有相同的ID并按时间戳排序),直到Value1=0”。在
因此,我需要几个RDD/DataFrames/。。。包含由条件(例如{Value1=0})标识的序列:
如何做到这一点?在
如有任何帮助或提示,我们将不胜感激!在
好吧,据我所知,你需要为你的数据源做这件事
告诉我这是否有用。干杯。在
好吧,据我所知,你需要为你的数据源做这件事
告诉我这是否有用。干杯。在
相关问题 更多 >
编程相关推荐