在大量使用numba之后,我将回到cython来并行化一些耗时的函数。以下是一个基本示例:
import numpy as np
cimport numpy as np
from cython import boundscheck, wraparound
from cython.parallel import parallel, prange
@boundscheck(False)
@wraparound(False)
def cytest1(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):
cdef int ix
cdef int iz
for ix in range(ix1, ix2):
for iz in range(iz1, iz2):
b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])
return b
@boundscheck(False)
@wraparound(False)
def cytest2(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):
cdef int ix
cdef int iz
with nogil, parallel():
for ix in prange(ix1, ix2):
for iz in range(iz1, iz2):
b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])
return b
编译这两个函数时(使用openmp标志),并按如下方式调用它们:
nx, nz = 1024, 1024
a = np.random.rand(nx, nz)
b = np.zeros_like(a)
Nit = 1000
ti = time.time()
for i in range(Nit):
cytest1(a, b, 5, nx-5, 0, nz)
print('cytest1 : {:.3f} s.'.format(time.time() - ti))
ti = time.time()
for i in range(Nit):
cytest2(a, b, 5, nx-5, 0, nz)
print('cytest2 : {:.3f} s.'.format(time.time() - ti))
我得到这些执行时间:
cytest1 : 1.757 s.
cytest2 : 1.861 s.
当并行函数被执行时,我可以看到我的4个cpu-s在运行,但是执行时间几乎与串行函数获得的时间相同。我试图将prange
移到内部循环,但结果最糟。我还尝试了一些不同的schedule
选项,但没有成功。你知道吗
很明显我错过了什么,但是什么?prange
是否无法使用试图访问n+X/n-X元素的代码来阻塞循环?你知道吗
编辑:
我的设置:
model name : Intel(R) Core(TM) i7-6600U CPU @ 2.60GHz
MemTotal : 8052556 kB
Python : 3.5.2
cython : 0.28.2
Numpy : 1.14.2
Numba : 0.37.0
那个设置.py地址:
from distutils.core import setup
from distutils.extension import Extension
from Cython.Distutils import build_ext
ext_modules = [
Extension("stencil",
["stencil.pyx"],
libraries=["m"],
extra_compile_args=["-O3", "-ffast-math", "-march=native", "-fopenmp"],
extra_link_args=['-fopenmp'],
)
]
setup(
name="stencil",
cmdclass={"build_ext": build_ext},
ext_modules=ext_modules
)
这个答案将是很多猜测,但正如我们将看到的:很多都取决于硬件,因此,如果手头没有相同的硬件,很难解释。你知道吗
第一个问题是:瓶颈是什么?通过查看代码,我假设这是一个内存受限的任务。你知道吗
为了更加清晰,我们只在循环中执行以下操作:
所以没有计算,只有内存访问。你知道吗
我使用Intel Xeon E5-2620@2.1 Ghz处理器和
%timeit
-魔术报告:正如我们所看到的,一些缓存正在进行。我们有两个数组,每个8Mb—这意味着16Mb的数据必须“接触”。我机器上的每个处理器都有15Mb的缓存—因此对于单个线程,数据在可以重用之前会从缓存中逐出,但如果同时使用两个处理器,则会有20Mb的快速缓存—因此足够大,可以保留所有数据。你知道吗
这意味着我们看到的加速是由于大量的快速内存(cache)可以被并行化版本利用。你知道吗
让我们增加数组的大小,这样即使对于并行版本,缓存也不够大:
现在它大约快了2倍,这很容易解释:两个处理器的内存带宽是一个处理器的两倍,而且两个处理器都被并行版本使用。你知道吗
对于你的公式,我们得到了非常相似的结果
这并不奇怪-没有足够的计算使其CPU限制。你知道吗
sin
和cos
是CPU密集型操作,因此使用它们将使计算CPU受限(完整代码见附录):这将产生8的加速,这对于我的机器来说是相当合理的。你知道吗
显然,对于其他机器/架构,可以观察到不同的行为。但简而言之:
列表(在windows上,在linux上使用
-fopenmp
):相关问题 更多 >
编程相关推荐