在回归（非分类）问题中，使用softmax作为隐藏层激活函数是否可以接受？

model = Sequential() model.add(Dense(648, activation='relu',input_shape=(train_x.shape[1],))) model.add(Dropout(0.3)) model.add(LayerNormalization()) model.add(Dense(152,activation='relu')) model.add(Dropout(0.15)) model.add(LayerNormalization()) model.add(Dense(924,activation='softsign')) model.add(Dropout(0.37)) model.add(LayerNormalization()) model.add(Dense(248,activation='softmax')) model.add(Dropout(0.12)) model.add(LayerNormalization()) model.add(Dense(1,activation='linear')) model.compile(loss='mse',optimizer='Adam')

1条回答

网友

1楼 · 发布于 2024-05-12 18:56:41

我可能是错的，无论是分类还是回归都应该是一样的。从数学角度考虑

一般来说，在隐藏层中有softmax是不可取的，因为我们希望每个神经元彼此独立。如果应用softmax，则它们将线性相关，因为激活将强制它们的总和等于1。这并不意味着它从未被使用过，您可以引用this paper

假设使用一些高级激活，例如LeakyReLU，通过使用它，神经元将受到控制，因为α速率可以调节。但是softmax这是不可能的

现在回到问题上来，我认为这取决于数据集。模型能够用softmax概括这个数据集。然而，我不认为它会一直这样工作。如上所述，您正在使它们彼此线性相关。所以，如果一个神经元学习到错误的东西，就会影响整个网络的泛化，因为其他值也会受到影响

编辑：我测试了两个模型。对于某些数据softmax的效果与relu一样好。但事实是所有的神经元都是相互依赖的。让它们相互依赖并不是一个应该承担的风险，特别是在大型网络中

数据：

X_train = np.random.randn(10000,20)
y_train = np.random.randn(10000,1)
X_test = np.random.randn(5000,20)
y_test = np.random.randn(5000,1)

使用Softmax

model = Sequential()
model.add(Dense(512, activation='relu',input_shape=(20,)))
model.add(Dense(256,activation='softmax'))
model.add(Dense(512,activation='softmax'))
model.add(Dense(256,activation='softmax'))
model.add(Dense(128,activation='softmax'))
model.add(Dense(1,activation='linear'))
model.compile(loss='mse',optimizer='adam')
model.fit(X_train, y_train, epochs = 16, validation_data= (X_test, y_test))

结果：模型无法学习此数据。它发散并停留在与发散相同的区域。似乎一个神经元想要学习，但另一个不让另一个学习

Epoch 15/16
313/313 [==============================] - 1s 3ms/step - loss: 1.0259 - val_loss: 1.0269
Epoch 16/16
313/313 [==============================] - 1s 3ms/step - loss: 1.0020 - val_loss: 1.0271

使用relu：

model = Sequential()
model.add(Dense(512, activation='relu',input_shape=(20,)))
model.add(Dense(256,activation='relu'))
model.add(Dense(512,activation='relu'))
model.add(Dense(256,activation='relu'))
model.add(Dense(128,activation='relu'))
model.add(Dense(1,activation='linear'))
model.compile(loss='mse',optimizer='adam')
model.fit(X_train, y_train, epochs = 16, validation_data= (X_test, y_test))

# Obviously overfitting but that's not the case.

结果：带有relu的模型能够学习这两个数据

Epoch 15/16
313/313 [==============================] - 1s 3ms/step - loss: 0.5580 - val_loss: 1.3091
Epoch 16/16
313/313 [==============================] - 1s 3ms/step - loss: 0.4808 - val_loss: 1.3290

相关问题更多 >

编程相关推荐

热门问题

热门文章