CPU上的矩阵乘法(numpy)和GPU上的矩阵乘法(gnumpy)给出了不同的结果

2024-09-21 05:32:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我用gnumpy在GPU上训练神经网络来加速一些计算。 我得到了期望的加速,但是有点担心numpy(cpu)和gnumpy(gpu)的结果之间的差异。

我有以下测试脚本来说明问题:

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

它提供输出:

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

如你所见,这些差异大约在10^-5量级。

所以问题是:我应该担心这些差异,还是这是预期的行为?

其他信息:

  • GPU:GeForce GTX 770
  • numpy版本:1.6.1

当我使用梯度检查(使用有限差分近似)来验证从numpy切换到gnumpy所做的小修改没有破坏任何东西时,我注意到了这个问题。正如人们所料,梯度检查在32位精度下不起作用(gnumpy不支持float64),但令我惊讶的是,在使用相同精度时,CPU和GPU之间的错误有所不同。

小测试神经网络的CPU和GPU误差如下: gradient checking errors

既然误差大小是相似的,我想这些差异可以吗?

在阅读了BenC在注释中引用的article之后,我确信这些差异主要可以由使用fused multiply add(FMA)指令的一个设备和不使用fused multiply add(FMA)指令的另一个设备来解释。

我从报纸上实现了这个例子:

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

…这一差异与FMA与串行算法相似(尽管由于某些原因,这两个结果与本文的精确结果相差较大)。

我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU不支持(我有一个常春藤桥英特尔至强(R)CPU E3-1225 V2,但英特尔在其与Haswell的产品中引入了FMA3指令)。

其他可能的解释包括在后台使用的不同的数学库,或者由于CPU与GPU的并行化程度不同而导致的操作顺序的不同。


Tags: importnumpygpuasnp差异cpudot
2条回答

RTX卡的浮点精度为半,因为它的图像渲染速度更快。你必须告诉GPU在为AI乘法浮点时使用全精度。做人工智能时,精确性是非常重要的。

我经历了同样的浮点差异,你在尝试使用Cuda与一个RTX2080TI。

我建议使用np.allclose来测试两个浮点数组是否几乎相等。

虽然您只看到两个结果数组中的值之间的绝对差异,np.allclose还考虑了它们的相对差异。例如,假设输入数组中的值大1000倍,那么两个结果之间的绝对差异也会大1000倍,但这并不意味着两个点积的精度会降低。

np.allclose将返回True,前提是您的两个测试数组中的每个对应元素对都满足以下条件,ab

abs(a - b) <= (atol + rtol * abs(b))

默认情况下,rtol=1e-5atol=1e-8。这些公差是一个很好的“经验法则”,但它们是否足够小取决于您的具体应用。例如,如果您处理的是值<;1e-8,那么1e-8的绝对差将是一场彻底的灾难!

如果尝试对两个具有默认公差的结果调用np.allclose,则会发现np.allclose返回True。那么,我的猜测是,这些差异可能很小,不值得担心。这真的取决于你对结果做了什么。

相关问题 更多 >

    热门问题