如何准备存储在zip文件中的图像数据以在Tensorflow 2中训练?

2024-09-28 03:25:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一大组图像,我需要准备一个卷积神经网络使用tensorflow2/Keras进行深入学习。一批61幅图像存储在一个zip文件中,其中包含它们各自的“掩码”(即图像的分段版本)。例如,zip文件Batch-0-of-163.zip包含:

'image-1.png', 'mask-1.png', 'image-2.png', 'mask-2.png' ... 'image-61.png', 'mask-61.png'

有没有办法在TensorFlow2中创建一个tensorflow.data.Dataset,在GPU需要时生成图像和掩码数据,以便输入到我的CNN?我想使用数据集,这样就可以利用提供的批处理/预取功能。在


Tags: 文件数据图像image版本pngbatchmask
1条回答
网友
1楼 · 发布于 2024-09-28 03:25:30

我解决问题的方法包括以下步骤:

  • 创建一个包含每个文件路径的数据集对象
  • 在数据集的每个元素上映射一个python函数来解压,加载数据并删除解压的文件夹(我假设您不再需要解压)
  • 返回tensorflow代码进行进一步处理

下面是一个示例:

 from scipy import misc
 import os

 #               
 # Parsing function with standard python:

 def zip_data_parser(zip_fname):
     os.system('unzip {0}'.format(zip_fname)) # unzip
     folder_name = zip_fname.rsplit('.zip')[0]

     # load data:
     x_stack = []
     y_stack = []
     for i in range(n_images):
         x_stack.append(misc.imread(folder_name + '/image-{0}.png'.format(i)))
         y_stack.append(misc.imread(folder_name + '/mask-{0}.png'.format(i)))
     x = np.array(x_stack)
     y = np.array(y_stack)

     os.system('rm -rf {0}'.format(folder_name)) # remove unzipped folder
     return x, y 

 #               
 # Dataset pipeline:

 all_zip_paths = ['file1.zip', 'file2.zip', 'file3.zip'] # list of paths for each zip file
 train_data = tf.constant(all_zip_paths)
 train_data = tf.data.Dataset.from_tensor_slices(train_data)

 train_data = train_data.map(
            lambda filename: tf.py_func(  # Parse the record into tensors
                zip_data_parser,
                [filename],
                [tf.float32, tf.float32]), num_parallel_calls=num_threads)

 # un-batch first, then batch the data again to have dimension [batch_size, N, M, C]
 train_data = train_data.apply(tf.data.experimental.unbatch())
 train_data = train_data.batch(b_size, drop_remainder=True)

当然,您可能需要将x和y投射到np.浮动32在将它们从zip_data_parser返回到Dataset对象之前。我还假设在我的示例中,掩码已经是一个热编码的。在

相关问题 更多 >

    热门问题