如何在数据流中启用文件的并行读取？

additional_side_inputs = {'key1': 'value1', 'key2': 'value2'} # etc. p | 'Collect CSV files' >> MatchFiles(input_dir + "*.csv") | 'Read files' >> ReadMatches() | 'Parse contents' >> beam.ParDo(FileToRowsFn(), additional_side_inputs) | 'Compute average' >> beam.CombinePerKey(AverageCalculatorFn())

class FileToRowsFn(beam.DoFn): def process(self, file_element, additional_side_inputs): with file_element.open() as csv_file: for row_id, *values in csv.reader(TextIOWrapper(csv_file, encoding='utf-8')): yield row_id, values

1条回答

网友

1楼 · 发布于 2024-10-02 14:16:32

这可能是因为Dataflow runner将您的所有步骤融合为一个步骤

对于这样一个要并行化的融合包，第一步需要是可并行化的。在您的例子中，这是一个不可并行化的glob扩展

要使管道可并行化，可以尝试中断fusion。这可以通过添加Reshuffle转换作为产生许多元素的步骤之一的使用者来实现

比如说,

from apache_beam import Reshuffle

additional_side_inputs = {'key1': 'value1', 'key2': 'value2'}  # etc.

p | 'Collect CSV files' >> MatchFiles(input_dir + "*.csv")
  | 'Read files' >> ReadMatches()
  | 'Reshuffle' >> Reshuffle()
  | 'Parse contents' >> beam.ParDo(FileToRowsFn(), additional_side_inputs)
  | 'Compute average' >> beam.CombinePerKey(AverageCalculatorFn())

如果使用Beam中可用的标准源之一（如textio.ReadFromText()）读取数据，则不必执行此操作。（遗憾的是，我们没有CSV源代码，但ReadFromText支持跳过标题行）

有关融合优化和防止融合的更多信息，请参见here

相关问题更多 >

编程相关推荐

热门问题

热门文章