在Apache Beam pipelin中对一个PCollection同时应用多个PTransforms

import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions p = beam.Pipeline(options=PipelineOptions()) class Tr1(beam.DoFn): def process(self, number): number = number + 1 yield number class Tr2(beam.DoFn): def process(self, number): number = number + 2 yield number def pipeline_test(): numbers = p | "Create" >> beam.Create([1]) tr1 = numbers | "Tr1" >> beam.ParDo(Tr1()) tr2 = numbers | "Tr2" >> beam.ParDo(Tr2()) tr1 | "Print1" >> beam.Map(print) tr2 | "Print2" >> beam.Map(print) def main(argv): del argv pipeline_test() result = p.run() result.wait_until_finish() if __name__ == '__main__': app.run(main)

1条回答

网友

1楼 · 发布于 2024-10-06 16:22:17

转换和元素的调度由用于运行管道的运行程序管理。你知道吗

运行程序通常尝试优化图形，并可能按顺序或并行运行某些任务。你知道吗

在您的例子中，Tr1和Tr2都是无状态的，并且应用于相同的输入。在这种情况下，runner通常在同一台机器上为相同的元素依次运行它们。注意，runner仍将并行运行不同的元素。你知道吗

应该是这样的。你知道吗

螺纹1 标高1->；Tr1 ->；Tr2型

螺纹2 标高1->；Tr1 ->；Tr2型

我不建议依赖管道不同部分的预期并行性，因为它取决于流道。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章