Python cuda延迟？

%%timeit x = cu.linspace(-cu1, cu1, ary_size, dtype=precision) y = cu.linspace(-cu1, cu1, ary_size, dtype=precision) xx, yy = cu.meshgrid(x, y) rho, phi = cu.sqrt(xx**cu2 + yy**cu2), cu.arctan2(yy, xx) phase_err = rho ** cu2 * cu.cos(phi) mask = rho > cu1 wv_ary = cu.exp(1j * cu2 * np.pi * phase_err) wv_ary[mask] = cu0 padded = cu.pad(wv_ary, ((pad, pad), (pad, pad)), mode='constant', constant_values=0) psf = fftshift(fft2(ifftshift(padded))) intensity_psf = abs(psf)**cu2 > 4.73 ms ± 86.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit x = np.linspace(-1, 1, ary_size, dtype=precision) y = np.linspace(-1, 1, ary_size, dtype=precision) xx, yy = np.meshgrid(x, y) rho, phi = np.sqrt(xx**2 + yy**2), np.arctan2(yy, xx) phase_err = rho ** 2 * np.cos(phi) mask = rho > 1 wv_ary = np.exp(1j * 2 * np.pi * phase_err) wv_ary[mask] = 0 padded = np.pad(wv_ary, ((pad, pad), (pad, pad)), mode='constant', constant_values=0) psf = nfftshift(nfft2(nifftshift(padded))) intensity_psf = abs(psf)**2 > 7.29 ms ± 63.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

1条回答

网友

1楼 · 发布于 2024-10-06 12:35:14

似乎所有的操作都是内存限制的，可能除了exp和atan在GPU上是双精度的。根据GeForce website，GPU的内存带宽似乎是112GB/s。根据ark.intel.com，您的CPU可能有大约37GB/s的带宽。那是x4。在

请注意，小数据集确实适合CPU的二级缓存，因此可以假设写操作之后的读操作在缓存中（比dram快一个数量级）。可以玩x2。在

最后，当在GPU上启动这样的操作时，问题的大小不足以让GPU隐藏延迟，因此您无法获得完整的带宽：读取的成本比其延迟比吞吐量更接近于它。如果你填充了一半的读总线，你就得到了一半的带宽。在

所有这些都可以通过验证或者不用NV prof来分析你的代码，然后你应该看到单个内核的计时和延迟。在

相关问题更多 >

编程相关推荐

热门问题

热门文章