该矩阵计算是否可以在没有中间3D矩阵的情况下实现或近似？问题的回答

该矩阵计算是否可以在没有中间3D矩阵的情况下实现或近似？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

使用Numba的第一个解决方案（您可以使用Cython或普通C做同样的事情）是使用简单的循环来描述问题 <pre><code>import numpy as np import numba as nb @nb.njit(fastmath=True,parallel=True) def calc_1(W): C=np.empty_like(W) N=W.shape[0] for i in nb.prange(N): TMP=np.empty(N,dtype=W.dtype) for j in range(N): for k in range(N): acc=0 for l in range(N): acc+=W[i,k]*W[k,l]*W[l,j]-W[i,k]*W[k,j] TMP[k]=acc C[i,j]=np.max(TMP) return C </code></pre> Francesco提供了一种简化方法，该方法可以更好地扩展较大的阵列大小。这导致了下面的内容，我还优化了一个小的临时数组 <pre><code>@nb.njit(fastmath=True,parallel=True) def calc_2(W): C=np.empty_like(W) N=W.shape[0] M = np.dot(W,W) - N * W for i in nb.prange(N): for j in range(N): val=W[i,0]*M[0,j] for k in range(1,N): TMP=W[i,k]*M[k,j] if TMP>val: val=TMP C[i,j]=val return C </code></pre> 这可以通过部分循环展开和优化阵列访问来进一步优化。有些编译器可能会自动执行此操作 <pre><code>@nb.njit(fastmath=True,parallel=True) def calc_3(W): C=np.empty_like(W) N=W.shape[0] W=np.ascontiguousarray(W) M = np.dot(W.T,W.T) - W.shape[0] * W.T for i in nb.prange(N//4): for j in range(N): val_1=W[i*4+0,0]*M[j,0] val_2=W[i*4+1,0]*M[j,0] val_3=W[i*4+2,0]*M[j,0] val_4=W[i*4+3,0]*M[j,0] for k in range(1,N): TMP_1=W[i*4+0,k]*M[j,k] TMP_2=W[i*4+1,k]*M[j,k] TMP_3=W[i*4+2,k]*M[j,k] TMP_4=W[i*4+3,k]*M[j,k] if TMP_1>val_1: val_1=TMP_1 if TMP_2>val_2: val_2=TMP_2 if TMP_3>val_3: val_3=TMP_3 if TMP_4>val_4: val_4=TMP_4 C[i*4+0,j]=val_1 C[i*4+1,j]=val_2 C[i*4+2,j]=val_3 C[i*4+3,j]=val_4 #Remainder for i in range(N//4*4,N): for j in range(N): val=W[i,0]*M[j,0] for k in range(1,N): TMP=W[i,k]*M[j,k] if TMP>val: val=TMP C[i,j]=val return C </code></pre> 计时 <pre><code>W=np.random.rand(100,100) %timeit calc_1(W) #16.8 ms ± 131 µs per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit calc_2(W) #449 µs ± 25.7 µs per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit calc_3(W) #259 µs ± 47.4 µs per loop (mean ± std. dev. of 7 runs, 1 loop each) W=np.random.rand(2000,2000) #Temporary array would be 64GB in this case %timeit calc_2(W) #5.37 s ± 174 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) %timeit calc_3(W) #596 ms ± 30.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) </code></pre>

该矩阵计算是否可以在没有中间3D矩阵的情况下实现或近似？

1 个回答

相关Python问题