Apache beam python fileio.WriteToFiles超出范围

2024-10-02 10:34:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在流式python管道中使用^{}。我明确指定了预期的碎片数,如下所示

fileio.WriteToFiles(
      path=...,
      file_naming=fileio.default_file_naming(prefix="output", suffix=".txt"),
      shards=5)

然而,管道似乎完全忽略了碎片数。请注意,流式管道应用30分钟的固定窗口。在每个窗口中,输出文件按如下方式进行分片

output-2020-12-14T23:30:00-2020-12-15T00:00:00--00000-00420
output-2020-12-14T23:30:00-2020-12-15T00:00:00--00001-00420
...
output-2020-12-14T23:30:00-2020-12-15T00:00:00--00419-00420
output-2020-12-15T00:00:00-2020-12-15T00:30:00--00000-00915
output-2020-12-15T00:00:00-2020-12-15T00:30:00--00001-00915
...
output-2020-12-15T00:00:00-2020-12-15T00:30:00--00914-00915

经过检查,我发现每个文件只包含一条记录

我使用了不同的触发器和max_writers_per_bundle,这无助于改变这种行为

我想知道这是SDK错误还是我做错了什么


Tags: 文件pathtxtdefaultoutputprefix管道流式

热门问题