多核机上单精度与双精度阵列矩阵乘法的性能退化

import numpy as np import mkl n = 10000 A = np.random.randn(n,n).astype('float32') B = np.random.randn(n,n).astype('float32') C = np.zeros((n,n)).astype('float32') mkl.set_num_threads(3); %time np.dot(A, B, out=C) 11.5 seconds mkl.set_num_threads(6); %time np.dot(A, B, out=C) 6 seconds mkl.set_num_threads(12); %time np.dot(A, B, out=C) 3 seconds mkl.set_num_threads(18); %time np.dot(A, B, out=C) 2.4 seconds mkl.set_num_threads(24); %time np.dot(A, B, out=C) 3.6 seconds mkl.set_num_threads(30); %time np.dot(A, B, out=C) 5 seconds mkl.set_num_threads(36); %time np.dot(A, B, out=C) 5.5 seconds

/opt/intel/bin/icc -o comp_sgemm_mkl.so -openmp -mkl sgem_lib.c -lm -lirc -O3 -fPIC -shared -std=c99 -vec-report1 -xhost -I/opt/intel/composer/mkl/include #include <stdio.h> #include <stdlib.h> #include "mkl.h" void comp_sgemm_mkl(int m, int n, int k, float *A, float *B, float *C); void comp_sgemm_mkl(int m, int n, int k, float *A, float *B, float *C) { int i, j; float alpha, beta; alpha = 1.0; beta = 0.0; cblas_sgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, m, n, k, alpha, A, k, B, n, beta, C, n); }

def comp_sgemm_mkl(A, B, out=None): lib = CDLL(omplib) lib.cblas_sgemm_mkl.argtypes = [c_int, c_int, c_int, np.ctypeslib.ndpointer(dtype=np.float32, ndim=2), np.ctypeslib.ndpointer(dtype=np.float32, ndim=2), np.ctypeslib.ndpointer(dtype=np.float32, ndim=2)] lib.comp_sgemm_mkl.restype = c_void_p m = A.shape[0] n = B.shape[0] k = B.shape[1] if np.isfortran(A): raise ValueError('Fortran array') if m != n: raise ValueError('Wrong matrix dimensions') if out is None: out = np.empty((m,k), np.float32) lib.comp_sgemm_mkl(m, n, k, A, B, out)

1条回答

网友
1楼 · 发布于 2024-09-30 01:36:51

我怀疑这是由于不幸的线程调度。我能复制出一个和你相似的效果。Python的运行速度是2.2秒，而C版本的运行速度从1.4到2.2秒有很大的变化
申请： KMP_AFFINITY=scatter,granularity=thread 这样可以确保28个线程始终在同一个处理器线程上运行。在
将这两个运行时都减少到更稳定的状态：C为~1.24 s，python为~1.26 s。在
这是一个28核双插座Xeon E5-2680 v3系统。在
有趣的是，在一个非常相似的24核双套接字Haswell系统上，python和C的性能几乎完全相同，即使没有线程亲和力/固定。在
为什么python会影响调度？我假设有更多的运行时环境。底线是，没有固定的性能结果将是不确定的。在
另外，您需要考虑的是，“英特尔OpenMP运行时”会产生一个额外的管理线程，这会使调度程序感到困惑。对于固定有更多的选择，例如KMP_AFFINITY=compact-但由于某些原因，这在我的系统上完全是一团糟。您可以将,verbose添加到变量中，以查看运行时如何固定线程。在
likwid-pin是一个有用的替代方案，提供了更方便的控制。在
一般来说，单精度应至少与双精度一样快。双精度可能较慢，因为：
您需要更多的内存/缓存带宽来实现双精度。在
您可以构建单精度吞吐量更高的ALU，但这通常不适用于CPU，而是适用于GPU。在
我认为，一旦你摆脱了性能异常，这将反映在你的数字。在
当您扩大MKL/*gemm的线程数量时，请考虑
内存/共享缓存带宽可能成为瓶颈，限制可伸缩性
Turbo模式将在提高利用率的同时有效地降低核心频率。这一点即使在正常频率下运行也适用：在Haswell EP处理器上，AVX指令将施加较低的“AVX基频”——但当使用较少的内核/可用的热余量时，处理器允许超过该频率，而且通常在短时间内甚至会更高。如果你想要完美的中性效果，你必须使用AVX的基频，这是1.9ghz。它被记录在here，并在one picture中解释。在
我不认为有一个真正简单的方法来衡量你的应用程序是如何受到不良调度的影响的。你可以用perf trace -e sched:sched_switch来展示这个，还有一个{a4}来可视化它，但是这会带来一个很高的学习曲线。再说一次-对于并行性能分析，您应该将线程固定。在

相关问题更多 >

编程相关推荐

热门问题

热门文章