在apache_beam中反序列化tfrecords的方法是什么

from apache_beam.io.tfrecordio import ReadFromTFRecord class VerifyOutput(beam.DoFn): def process(self, pcollection): try: pcollection = pcollection.element except AttributeError: pass logging.info(pcollection.subject_id) (pipeline | ReadFromTFRecord(opt.input_path, compression_type='auto', validate=True) | beam.ParDo(VerifyOutput()) )

1条回答

网友

1楼 · 发布于 2024-10-03 21:26:56

您需要指定编码器以解码回特性。像这样的东西应该可以做到：

import tensorflow as tf
import tensorflow_transform as tft
from apache_beam.io.tfrecordio import ReadFromTFRecord
from tensorflow_transform.beam import impl as beam_impl
from tensorflow_transform.beam import tft_beam_io 
from tensorflow_transform.tf_metadata import dataset_metadata
from tensorflow_transform.tf_metadata import dataset_schema

...

# for each feature, adapt accordingly:
column_schemas['FEATURE_NAME']= dataset_schema.ColumnSchema(tf.int64, [], dataset_schema.FixedColumnRepresentation())

raw_data_metadata = dataset_metadata.DatasetMetadata(dataset_schema.Schema(column_schemas))
data_coder = tft.coders.ExampleProtoCoder(raw_data_metadata.schema)

_ = (pipeline | ReadFromTFRecord(opt.input_path, coder=data_coder, compression_type='auto', validate=True) 
              | beam.ParDo(VerifyOutput()) )

另请参见here以获取更详细的示例。在

但是，考虑到还有（更新的）替代方法来处理TF记录文件和数据集（例如，参见here和here）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在apache_beam中反序列化tfrecords的方法是什么

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >