Cython平行度和模板

import numpy as np cimport numpy as np from cython import boundscheck, wraparound from cython.parallel import parallel, prange @boundscheck(False) @wraparound(False) def cytest1(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2): cdef int ix cdef int iz for ix in range(ix1, ix2): for iz in range(iz1, iz2): b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz]) return b @boundscheck(False) @wraparound(False) def cytest2(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2): cdef int ix cdef int iz with nogil, parallel(): for ix in prange(ix1, ix2): for iz in range(iz1, iz2): b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz]) return b

nx, nz = 1024, 1024 a = np.random.rand(nx, nz) b = np.zeros_like(a) Nit = 1000 ti = time.time() for i in range(Nit): cytest1(a, b, 5, nx-5, 0, nz) print('cytest1 : {:.3f} s.'.format(time.time() - ti)) ti = time.time() for i in range(Nit): cytest2(a, b, 5, nx-5, 0, nz) print('cytest2 : {:.3f} s.'.format(time.time() - ti))

from distutils.core import setup from distutils.extension import Extension from Cython.Distutils import build_ext ext_modules = [ Extension("stencil", ["stencil.pyx"], libraries=["m"], extra_compile_args=["-O3", "-ffast-math", "-march=native", "-fopenmp"], extra_link_args=['-fopenmp'], ) ] setup( name="stencil", cmdclass={"build_ext": build_ext}, ext_modules=ext_modules )

1条回答

网友

1楼 · 发布于 2024-09-28 21:37:19

这个答案将是很多猜测，但正如我们将看到的：很多都取决于硬件，因此，如果手头没有相同的硬件，很难解释。你知道吗

第一个问题是：瓶颈是什么？通过查看代码，我假设这是一个内存受限的任务。你知道吗

为了更加清晰，我们只在循环中执行以下操作：

 b[ix, iz] = (a[ix+1, iz])

所以没有计算，只有内存访问。你知道吗

我使用Intel Xeon E5-2620@2.1 Ghz处理器和%timeit-魔术报告：

>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
100 loops, best of 3: 1.99 ms per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
The slowest run took 234.48 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 324 µs per loop

正如我们所看到的，一些缓存正在进行。我们有两个数组，每个8Mb—这意味着16Mb的数据必须“接触”。我机器上的每个处理器都有15Mb的缓存—因此对于单个线程，数据在可以重用之前会从缓存中逐出，但如果同时使用两个处理器，则会有20Mb的快速缓存—因此足够大，可以保留所有数据。你知道吗

这意味着我们看到的加速是由于大量的快速内存（cache）可以被并行化版本利用。你知道吗

让我们增加数组的大小，这样即使对于并行版本，缓存也不够大：

....
>>> nx, nz = 10240, 10240 #100 times bigger
....

>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 238 ms per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
10 loops, best of 3: 99.3 ms per loop

现在它大约快了2倍，这很容易解释：两个处理器的内存带宽是一个处理器的两倍，而且两个处理器都被并行版本使用。你知道吗

对于你的公式，我们得到了非常相似的结果

b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])

这并不奇怪-没有足够的计算使其CPU限制。你知道吗

sin和cos是CPU密集型操作，因此使用它们将使计算CPU受限（完整代码见附录）：

...
b[ix, iz] = sin(a[ix+1, iz])
...
>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 1.6 s per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 217 ms per loop

这将产生8的加速，这对于我的机器来说是相当合理的。你知道吗

显然，对于其他机器/架构，可以观察到不同的行为。但简而言之：

我不希望你的公式有太多的加速——任务是内存受限的，所以问题是，你能否获得更高的内存访问带宽。你知道吗
对于CPU密集型的计算，您至少应该能够看到一些速度提高，这取决于您的硬件。你知道吗

列表（在windows上，在linux上使用-fopenmp）：

%%cython  compile-args=/openmp  link-args=/openmp 
from cython.parallel import parallel, prange
from cython import boundscheck, wraparound
from libc.math cimport sin

@boundscheck(False)
@wraparound(False)
def cytest1(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):

    cdef int ix
    cdef int iz

    for ix in range(ix1, ix2):
        for iz in range(iz1, iz2):
            b[ix, iz] =sin(a[ix+1, iz])
    return b


@boundscheck(False)
@wraparound(False)
def cytest2(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):

    cdef int ix
    cdef int iz

    with nogil, parallel():
        for ix in prange(ix1, ix2):
            for iz in range(iz1, iz2):
                b[ix, iz] = sin(a[ix+1, iz])

    return b

相关问题更多 >

编程相关推荐

热门问题

热门文章