利用数据集API实现Tensorflow中批次的滑动窗口

def tfrecords_train_input(input_dir, examples, epochs, nsensors, past, future, features, batch_size, threads, shuffle, record_type): filenames = sorted( [os.path.join(input_dir, f) for f in os.listdir(input_dir)]) num_records = 0 for fn in filenames: for _ in tf.python_io.tf_record_iterator(fn): num_records += 1 print("Number of files to use:", len(filenames), "/ Total records to use:", num_records) dataset = tf.data.TFRecordDataset(filenames) # Parse records read_proto = partial(record_type().read_proto, nsensors=nsensors, past=past, future=future, features=features) # Parallelize Data Transformation on available GPU dataset = dataset.map(map_func=read_proto, num_parallel_calls=threads) # Cache data dataset = dataset.cache() # repeat after shuffling dataset = dataset.repeat(epochs) # Batch data dataset = dataset.batch(batch_size) # Efficient Pipelining dataset = dataset.prefetch(2) iterator = dataset.make_one_shot_iterator() return iterator

2条回答

网友

1楼 · 编辑于 2024-06-25 06:37:19

可以使用sliding window批处理操作来实现tf.data.Dataset：

示例：

from tensorflow.contrib.data.python.ops import sliding

imgs = tf.constant(['img0','img1', 'img2','img3', 'img4','img5', 'img6', 'img7'])
labels = tf.constant([0, 0, 0, 1, 1, 1, 0, 0])

# create TensorFlow Dataset object
data = tf.data.Dataset.from_tensor_slices((imgs, labels))

# sliding window batch
window = 4
stride = 1
data = data.apply(sliding.sliding_window_batch(window, stride))

# create TensorFlow Iterator object
iterator =  tf.data.Iterator.from_structure(data.output_types,data.output_shapes)
next_element = iterator.get_next()

# create initialization ops 
init_op = iterator.make_initializer(data)

with tf.Session() as sess:
   # initialize the iterator on the data
   sess.run(init_op)
   while True:
      try:
         elem = sess.run(next_element)
         print(elem)
      except tf.errors.OutOfRangeError:
         print("End of dataset.")
         break

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-06-25 06:37:19

回复原帖子和回复@卷心菜汤对维杰回应的评论：

为了实现一个有效的滑动窗口，可以使用以下代码。在

data = data.window(size=batch_size, stride=1, shift=1, drop_remainder=True ) data = data.interleave( lambda *window: tf.data.Dataset.zip(tuple([w.batch(batch_size) for w in window])), cycle_length=10, block_length=10 ,num_parallel_calls=4 )

使用交错代替平面映射，因为它允许在这个窗口转换期间并行进行处理。在

请参阅文档以选择适用于您的硬件和数据的cycle_length、block_length和num_parallel_调用的值。在

相关问题更多 >

编程相关推荐

热门问题

热门文章