如何提高NumPy相关功能的性能？问题的回答

如何提高NumPy相关功能的性能？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个函数，它返回一个大的线性方程组的剩余范数的平方 <pre><code>In [1]: import numpy as np In [2]: A = np.random.rand(3600000, 200) In [3]: b = np.random.rand(3600000) In [4]: def f(x): ...: global A ...: global b ...: return np.linalg.norm(A.dot(x) - b)**2 </code></pre> 现在我有了一个算法，在这个算法中，函数必须被求值几次。然而，由于方程系统的大小，在某个<code>x</code>处的每个函数调用都需要很多时间 <pre><code>In [5]: import time In [6]: def f(x): ...: global A ...: global b ...: start = time.time() ...: res = np.linalg.norm(A.dot(x) - b)**2 ...: end = time.time() ...: return res, end - start In [7]: test = np.random.rand(200) In [8]: f(test) Out[8]: (8820030785.528395, 7.467242956161499) </code></pre> 我的问题是: <blockquote> Are there any possibilities for reducing the time of such a function call? </blockquote> 我曾想过用一个更高效的表达式替换<code>np.linalg.norm(A.dot(x) - b)**2</code>，但我不知道这会是什么样子 <hr/> 技术信息上面的代码是在带有 <ul> <li>macOS Catalina版本10.15.5</li> <li>2.3 GHz双核Intel Core i5（涡轮增压高达3.6 GHz）和64 MB eDRAM</li> <li>8 GB 2133 MHz LPDDR3 RAM（板载）</li> <li> <pre><code> Memory: Memory Slots: ECC: Disabled Upgradeable Memory: No BANK 0/DIMM0: Size: 4 GB Type: LPDDR3 Speed: 2133 MHz Status: OK (...) BANK 1/DIMM0: Size: 4 GB Type: LPDDR3 Speed: 2133 MHz Status: OK (...) </code></pre> </li> </ul> <code>np.show_config()</code>的结果是 <pre><code>blas_mkl_info: libraries = ['blas', 'cblas', 'lapack', 'pthread', 'blas', 'cblas', 'lapack'] library_dirs = ['/Users/me/miniconda3/envs/magpy/lib'] define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)] include_dirs = ['/Users/me/miniconda3/envs/magpy/include'] blas_opt_info: libraries = ['blas', 'cblas', 'lapack', 'pthread', 'blas', 'cblas', 'lapack', 'blas', 'cblas', 'lapack'] library_dirs = ['/Users/me/miniconda3/envs/magpy/lib'] define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)] include_dirs = ['/Users/me/miniconda3/envs/magpy/include'] lapack_mkl_info: libraries = ['blas', 'cblas', 'lapack', 'pthread', 'blas', 'cblas', 'lapack'] library_dirs = ['/Users/me/miniconda3/envs/magpy/lib'] define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)] include_dirs = ['/Users/me/miniconda3/envs/magpy/include'] lapack_opt_info: libraries = ['blas', 'cblas', 'lapack', 'pthread', 'blas', 'cblas', 'lapack', 'blas', 'cblas', 'lapack'] library_dirs = ['/Users/me/miniconda3/envs/magpy/lib'] define_macros = [('SCIPY_MKL_H', None), ('HAVE_CBLAS', None)] include_dirs = ['/Users/me/miniconda3/envs/magpy/include'] </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在您的情况下<code>np.linalg.norm</code>只是 <pre><code>np.sqrt(dot(x,x)) </code></pre> 因此，您最好做以下工作： <pre><code>temp = np.dot(A,x) - b # temp = A@x-b return np.dot(temp, temp) # return temp@temp </code></pre> 跳过不必要的sqrt/square。但与最初的<code>A@x</code>相比，这可能是个小问题 在一台相当普通的Linux4Gb计算机上，您的测试用例给了我（在创建<code>A</code>时） <pre><code>MemoryError: Unable to allocate 5.36 GiB for an array with shape (3600000, 200) and data type float64 </code></pre> 虽然你显然有足够的记忆力，但你可能正在突破这一界限。在另一个例子中，我们已经看到，由于内存管理问题，使用非常大的数组的<code>dot/@</code>会减慢速度。通常，人们通过进行某种“块”处理来提高速度。如果您正在使用3d“批处理”进行<code>matmul</code>，那么这很容易。你的普通案件就不那么明显了 将<code>A</code>大小减少10： <pre><code>In [423]: A.shape Out[423]: (360000, 200) In [424]: temp = A@x-b; res = temp@temp In [425]: res Out[425]: 938613433.9717302 In [426]: np.linalg.norm(A.dot(x)-b)**2 Out[426]: 938613433.9717301 </code></pre> 时间上没有太大不同： <pre><code>In [428]: timeit temp = A@x-b; res = temp@temp 85 ms ± 529 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [429]: timeit np.linalg.norm(A.dot(x)-b)**2 86.1 ms ± 1.61 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) </code></pre> 事实上，正是<code>A.dot(x)</code>主导了时间安排；其余的可以忽略不计 将<code>A</code>的大小加倍，大约使时间加倍（175-180范围） 我不是图书馆专家，但我相信<code>MKL</code>是一个更快的选择，我没有（但你似乎有）

如何提高NumPy相关功能的性能？

1 个回答

相关Python问题