CNN与LSTM的结合

def alexnet(width, height, lr, output=3): network = input_data(shape=[None, width, height, 1], name='input') network = conv_2d(network, 96, 11, strides=4, activation='relu') network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = conv_2d(network, 256, 5, activation='relu') network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = conv_2d(network, 384, 3, activation='relu') network = conv_2d(network, 384, 3, activation='relu') network = conv_2d(network, 256, 3, activation='relu') network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = fully_connected(network, 4096, activation='tanh') network = dropout(network, 0.5) network = fully_connected(network, 4096, activation='tanh') network = dropout(network, 0.5) network = fully_connected(network, output, activation='softmax') network = regression(network, optimizer='momentum', loss='categorical_crossentropy', learning_rate=lr, name='targets') model = tflearn.DNN(network, checkpoint_path='model_alexnet', max_checkpoints=1, tensorboard_verbose=0, tensorboard_dir='log') return model

1条回答

网友

1楼 · 发布于 2024-05-13 07:20:39

如果我理解正确，您需要执行以下操作。设model为网络，将一系列图像作为输入并返回预测。使用finctional API，其示意图如下所示：

    def create_model():
        input_data = keras.Input(shape=(number-of-images,shape-of-images))
        ### processing part ###
        model = keras.Model(input_images, your-predictions)
        return model
    model = create_model()

在processing part中，您希望获得每个图像的编码，然后使用RNN将它们作为序列进行分析

作为第一步，您需要获得所有图像的编码。设encoder是为单个图像进行编码的网络，返回enc_dim维编码。为了有效地获得所有图像的编码，请注意，在训练期间model使用形状(batch-size,number-of-images,shape-of-images)处理数据。因此，您总共有total-number-of-images=（批量大小）x（图像数量）个图像。要处理它们，请将input_data重塑为具有维度（图像总数、图像形状），如下所示：

    input_data_reshaped = tf.reshape(input_data, (-1,shape-of-images)),

并通过encoder传递它们：

    image_encodings_flatterned = encoder(input_data_reshaped).

这将生成格式为（图像总数，enc_dim）的输出。要处理编码，您需要恢复批量大小维度。这很容易做到：

    image_encodings = tf.reshape(image_encodings_flatterned, (-1,number-of-images,enc_dim))

正如预期的那样，它会将数据重塑为（批量大小、图像数量、尺寸）。该数据可由RNN层或其组合容易地处理。例如，对于单个LSTM层

    rnn_analyzer = tf.keras.layers.LSTM(parameters)

预测结果如下所示：

    rnn_encodings = rnn_analyzer(image_encodings).

rnn_encodings可被致密层进一步用于进行最终预测

通过将上述内容放在model的processing part中，您将达到目标

相关问题更多 >

编程相关推荐

热门问题

热门文章