擅长:python、mysql、java
<p>正如Philipp所观察到的,在大多数情况下,某种批次是将测试应用于流式数据的好方法(即使Spark streaming也有效地使用了“迷你批次”系统)</p>
<p>这就是说:如果您需要使用流式算法来计算验证所需的度量(例如,维护观察数据的运行计数),则可以将目标度量分解为“状态”和“更新”部分,这可以是“最后”和“当前”批次的属性(即使每个批次只有一条记录)。改进对这种跨批次度量的支持实际上是我们现在在《远大前程》中最积极的工作领域</p>
<p>这样,我认为批处理的概念既深入到了验证的核心概念中,又足够灵活,可以在流媒体系统中工作</p>
<p>免责声明:我是《远大前程》的作者之一。(堆栈溢出警报!:)</p>