回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我用<a href="http://www.cs.toronto.edu/~tijmen/gnumpy.html" rel="noreferrer">gnumpy</a>在GPU上训练神经网络来加速一些计算。
我得到了期望的加速,但是有点担心numpy(cpu)和gnumpy(gpu)的结果之间的差异。</p>
<p>我有以下测试脚本来说明问题:</p>
<pre><code>import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
</code></pre>
<p>它提供输出:</p>
<pre><code>[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
</code></pre>
<p>如你所见,这些差异大约在10^-5量级。</p>
<p>所以问题是:<strong>我应该担心这些差异,还是这是预期的行为?</strong></p>
<p>其他信息:</p>
<ul>
<li>GPU:GeForce GTX 770</li>
<li>numpy版本:1.6.1</li>
</ul>
<p>当我使用梯度检查(使用有限差分近似)来验证从numpy切换到gnumpy所做的小修改没有破坏任何东西时,我注意到了这个问题。正如人们所料,梯度检查在32位精度下不起作用(gnumpy不支持float64),但令我惊讶的是,在使用相同精度时,CPU和GPU之间的错误有所不同。</p>
<p>小测试神经网络的CPU和GPU误差如下:
<img src="https://i.imgur.com/IBj3eKt.png?1" alt="gradient checking errors"/></p>
<p>既然误差大小是相似的,我想这些差异可以吗?</p>
<p>在阅读了BenC在注释中引用的<a href="http://developer.download.nvidia.com/assets/cuda/files/NVIDIA-CUDA-Floating-Point.pdf" rel="noreferrer">article</a>之后,我确信这些差异主要可以由使用fused multiply add(FMA)指令的一个设备和不使用fused multiply add(FMA)指令的另一个设备来解释。</p>
<p>我从报纸上实现了这个例子:</p>
<pre><code>import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
</code></pre>
<p>…这一差异与FMA与串行算法相似(尽管由于某些原因,这两个结果与本文的精确结果相差较大)。</p>
<p>我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU不支持(我有一个常春藤桥英特尔至强(R)CPU E3-1225 V2,但英特尔在其与Haswell的产品中引入了FMA3指令)。</p>
<p>其他可能的解释包括在后台使用的不同的数学库,或者由于CPU与GPU的并行化程度不同而导致的操作顺序的不同。</p>