我可以在JavaSDK文档中看到,我们可以在FileIO.ReadableFile文件实用程序类-https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--
然而,我使用Python,它可以作为参数(apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)
),但是浏览一下源代码,我认为它没有任何作用-https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches
有人能确认我是否能用这个类打开bz2文件吗?你知道吗
我特别需要它,这样我就可以使用元数据了(元数据.path如果有人对如何将文件名添加到我的每一行作为侧输入有一些创造性的想法,也请分享。你知道吗
现在还不可能(如@Pablo answer所示),但是,如果您想现在就开始,可以从decompressorBulkTemplate of Dataflow开始。有很多行,但代码并不难理解。你知道吗
不要写出来,解压后处理你的文件。这是从今天开始的一个很好的起点。你知道吗
相关问题 更多 >
编程相关推荐