如何使用Apache Beam将1个文本文件的内容拆分为不同的PCollection

import apache_beam as beam from apache_beam import Create, Map, ParDo, Filter from apache_beam.io import ReadFromText class SplitRow(beam.DoFn): def process(self,element): return element.splitlines() def ExtractBurger(element): if element == "BEGIN=burger": return element p = beam.Pipeline() squares = ( p # | "Read From Text" >> ReadFromText("gs://abc.txt") | "Create dummy text file" >> Create([ 'BEGIN=burger', 'blue', 'lettuce', 'mayonise', 'END=burger', 'BEGIN=fish', 'green', 'strawberry', 'ketchup', 'END=fish', ]) | "Decode and split lines" >> ParDo(SplitRow()) | "Extract out Burger" >> Filter(ExtractBurger) | Map(print) ) p.run()

1条回答

网友

1楼 · 发布于 2024-10-01 13:35:36

梁并行处理单元。因此，不能保证它将按原始顺序逐行处理

要实现这一点，必须使用状态（https://beam.apache.org/blog/stateful-processing/）来记录当前处理是否在开始和结束之间。您必须确保梁及其流道（无论您选择哪个流道）的平行度为1，以便它不会并行处理元素。但这违背了使用光束的目的

如果无法更改文件：只需编写Python脚本即可
如果可以更改生成文件的行为：可以为“开始”和“结束”之间的每一行提供uuid。而且您的文件甚至不需要按原始顺序包含行。例如：
```
   'burger=blue',
   'burger=lettuce',
   'burger=mayonise',
   'fish=green',
   'fish=strawberry',
   'fish=ketchup',
   'burger=pickle',
   'fish=chips',
```

然后，您可以并行处理所有行，将它们解析为{key}={value}，然后按键分组到一个PCollection中，该PCollection包含用于进一步转换的所有内容

相关问题更多 >

编程相关推荐

热门问题

热门文章