这个cython代码可以优化吗？问题的回答

这个cython代码可以优化吗？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我第一次使用cython来获得函数的速度。函数接受一个平方矩阵<code>A</code>浮点数并输出一个浮点数。它正在计算的函数是<a href="https://en.m.wikipedia.org/wiki/Computing_the_permanent" rel="nofollow noreferrer">permanent of a matrix</a> <a href="https://i.stack.imgur.com/GOz7G.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/GOz7G.png" alt="enter image description here"/></a> 当A是30×30时，我的代码目前在我的电脑上需要大约60秒 在下面的代码中，我从wiki页面实现了permanent的Balasubramanian Bax/franklinglynn公式。我把矩阵叫做M 代码的一个复杂部分是数组f，它用于保存数组d中下一个要翻转的位置的索引。数组d保存的值是+-1。在循环中操作f和j只是快速更新Gray代码的一种聪明方法。在 <pre><code>from __future__ import division import numpy as np cimport numpy as np cimport cython DTYPE_int = np.int ctypedef np.int_t DTYPE_int_t DTYPE_float = np.float64 ctypedef np.float64_t DTYPE_float_t @cython.boundscheck(False) # turn off bounds-checking for entire function @cython.wraparound(False) # turn off negative index wrapping for entire function def permfunc(np.ndarray [DTYPE_float_t, ndim =2, mode='c'] M): cdef int n = M.shape[0] cdef np.ndarray[DTYPE_float_t, ndim =1, mode='c' ] d = np.ones(n, dtype=DTYPE_float) cdef int j = 0 cdef int s = 1 cdef np.ndarray [DTYPE_int_t, ndim =1, mode='c'] f = np.arange(n, dtype=DTYPE_int) cdef np.ndarray [DTYPE_float_t, ndim =1, mode='c'] v = M.sum(axis=0) cdef DTYPE_float_t p = 1 cdef int i cdef DTYPE_float_t prod for i in range(n): p *= v[i] while (j < n-1): for i in range(n): v[i] -= 2*d[j]*M[j, i] d[j] = -d[j] s = -s prod = 1 for i in range(n): prod *= v[i] p += s*prod f[0] = 0 f[j] = f[j+1] f[j+1] = j+1 j = f[0] return p/2**(n-1) </code></pre> 我已经使用了在cython教程中找到的所有简单优化。有些方面我不得不承认我不完全理解。例如，如果我将数组<code>d</code>设为int，因为值只有+-1，代码的运行速度会慢10%，所以我将其保留为float64 <blockquote> Is there anything else I can do to speed up the code? </blockquote> <hr/> 这是cython-a的结果。如您所见，循环中的所有内容都被编译为C语言，因此基本的优化已经起作用。在 <a href="https://i.stack.imgur.com/rtHhK.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/rtHhK.png" alt="Result of cython -a"/></a> 这是numpy中相同的函数，比我当前的cython版本慢100多倍。在 ^{pr2}$ <hr/> 更新计时 下面是我的cython版本、numpy版本和romeric对cython代码的改进（使用ipython）。我已经为可重复性设定了种子。在 <pre><code>from scipy.stats import ortho_group import pyximport; pyximport.install() import permlib # This loads in the functions from permlib.pyx import numpy as np; np.random.seed(7) M = ortho_group.rvs(23) #Creates a random orthogonal matrix %timeit permlib.npperm(M) # The numpy version 1 loop, best of 3: 44.5 s per loop %timeit permlib.permfunc(M) # The cython version 1 loop, best of 3: 273 ms per loop %timeit permlib.permfunc_modified(M) #romeric's improvement 10 loops, best of 3: 198 ms per loop M = ortho_group.rvs(28) %timeit permlib.permfunc(M) # The cython version run on a 28x28 matrix 1 loop, best of 3: 15.8 s per loop %timeit permlib.permfunc_modified(M) # romeric's improvement run on a 28x28 matrix 1 loop, best of 3: 12.4 s per loop </code></pre> <blockquote> Can the cython code be sped up at all? </blockquote> 我使用的是gcc和CPU是amdfx8350。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这个cython代码可以优化吗？

1 个回答

相关Python问题