为什么Keras LSTM在CPU上的速度是GPU的三倍？

网友

1楼 · 编辑于 2024-10-01 07:46:08

今天我遇到了一个类似的问题，发现了两个可能对其他人有帮助的事情（这是一个回归问题，在一台有4个P100 gpu的机器上运行，行数约为2.1MM）：

减少批量大小会增加损失和val损失，因此您需要对您想要做出的权衡做出决定。在

网友

2楼 · 编辑于 2024-10-01 07:46:08

猜测它只是一个不同的，更好的实现，如果实现不同，你不应该期望相同的结果。在

一般来说，在GPU上有效地实现一个算法是非常困难的，要获得最大的性能需要特定于体系结构的实现。因此，如果一个特定于Nvidia的gpu的实现比gpu的一般实现具有更高的性能也就不足为奇了。与致力于CNN一般实现的团队相比，Nvidia将投入更多的资源来加速gpu的代码，这也就不足为奇了。在

另一种可能是后端使用的数据类型已从双精度浮点更改为单精度甚至半精度浮点。较小的数据类型意味着您可以更快地处理更多的数字，但以准确性为代价。对于神经网络应用来说，这通常是可以接受的，因为没有一个单独的数字需要特别精确的网络产生可接受的结果。在

网友

3楼 · 编辑于 2024-10-01 07:46:08

在Keras中，用CuDNN快速实现LSTM。在

model.add(CuDNNLSTM(units, input_shape=(len(X_train), len(X_train[0])), return_sequences=True))

它只能在带有TensorFlow后端的GPU上运行。在