CPU上的矩阵乘法（numpy）和GPU上的矩阵乘法（gnumpy）给出了不同的结果问题的回答

CPU上的矩阵乘法（numpy）和GPU上的矩阵乘法（gnumpy）给出了不同的结果

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我用<a href="http://www.cs.toronto.edu/~tijmen/gnumpy.html" rel="noreferrer">gnumpy</a>在GPU上训练神经网络来加速一些计算。我得到了期望的加速，但是有点担心numpy（cpu）和gnumpy（gpu）的结果之间的差异。 我有以下测试脚本来说明问题： <pre><code>import gnumpy as gpu import numpy as np n = 400 a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32) b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32) ga = gpu.garray(a) gb = gpu.garray(b) ga = ga.dot(gb) a = a.dot(b) print ga.as_numpy_array(dtype=np.float32) - a </code></pre> 它提供输出： <pre><code>[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05 3.81469727e-05 1.52587891e-05] [ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05 0.00000000e+00 1.52587891e-05] [ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05 0.00000000e+00 -7.62939453e-06] ..., [ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05 0.00000000e+00 -2.28881836e-05] [ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05 7.62939453e-06 1.52587891e-05] [ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05 7.62939453e-06 3.05175781e-05]] </code></pre> 如你所见，这些差异大约在10^-5量级。 所以问题是：我应该担心这些差异，还是这是预期的行为？ 其他信息： <ul> <li>GPU:GeForce GTX 770</li> <li>numpy版本：1.6.1</li> </ul> 当我使用梯度检查（使用有限差分近似）来验证从numpy切换到gnumpy所做的小修改没有破坏任何东西时，我注意到了这个问题。正如人们所料，梯度检查在32位精度下不起作用（gnumpy不支持float64），但令我惊讶的是，在使用相同精度时，CPU和GPU之间的错误有所不同。 小测试神经网络的CPU和GPU误差如下： <img src="https://i.imgur.com/IBj3eKt.png?1" alt="gradient checking errors"/> 既然误差大小是相似的，我想这些差异可以吗？ 在阅读了BenC在注释中引用的<a href="http://developer.download.nvidia.com/assets/cuda/files/NVIDIA-CUDA-Floating-Point.pdf" rel="noreferrer">article</a>之后，我确信这些差异主要可以由使用fused multiply add（FMA）指令的一个设备和不使用fused multiply add（FMA）指令的另一个设备来解释。 我从报纸上实现了这个例子： <pre><code>import gnumpy as gpu import numpy as np a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32) b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32) ga = gpu.garray(a) gb = gpu.garray(b) ga = ga.dot(gb) a = a.dot(b) print "CPU", a print "GPU", ga print "DIFF", ga - a >>>CPU 0.0559577 >>>GPU 0.0559577569366 >>>DIFF 8.19563865662e-08 </code></pre> …这一差异与FMA与串行算法相似（尽管由于某些原因，这两个结果与本文的精确结果相差较大）。 我正在使用的GPU（GeForce GTX 770）支持FMA指令，而CPU不支持（我有一个常春藤桥英特尔至强（R）CPU E3-1225 V2，但英特尔在其与Haswell的产品中引入了FMA3指令）。 其他可能的解释包括在后台使用的不同的数学库，或者由于CPU与GPU的并行化程度不同而导致的操作顺序的不同。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

CPU上的矩阵乘法（numpy）和GPU上的矩阵乘法（gnumpy）给出了不同的结果

1 个回答

相关Python问题