PyOpenCL Kronecker产品内核

import pyopencl as cl import numpy from time import time N = 3 num_iter = 1 a = numpy.random.rand(N,N) b = numpy.random.rand(N,N) c = numpy.kron(a, b) abig = numpy.repeat(numpy.repeat(a,N,axis=1),N,axis=0) bbig = numpy.tile(b,(N,N)) cbig = abig*bbig print(numpy.allclose(c,cbig))

2条回答

网友

1楼 · 编辑于 2024-07-05 10:58:27

我也为kronecker产品开发了一个内核。我将把它放在这里作为参考。为

A#B=C

其中#是the kronecker product，A是m-x-n-矩阵，B是p-x-q-矩阵，C是x-x-y-矩阵，x=mp和y=nq，下面的内核将计算C：

__kernel void kroneckerProdFast(__global float* res,
                                __global float* a,
                                __global float* b,
                                int p,
                                int q){
    int xi = get_global_id(0);
    int x = get_global_size(0); 
    int yi = get_global_id(1);
    int y = get_global_size(1); 

    int n = y / q;
    int mi = xi / p;
    int ni = yi / q;
    int pi = xi % p;
    int qi = yi % q;

    res[xi * y + yi] = a[mi * n + ni] * b[pi * q + qi];
}

来自PyOpenCL的电话是：

^{pr2}$

网友

2楼 · 编辑于 2024-07-05 10:58:27

问题是内核没有为输入和输出内存地址获取索引。参数应该是C[i+j*N]，以便在整个内存块中适当地移动。在

相关问题更多 >

编程相关推荐

热门问题

热门文章