基于PyCuda的遗传细胞自动机，如何有效地将每个细胞的大量数据传递给CUDA内核？

Mk = 64 Tk = 1000 emit_gpu = ElementwiseKernel("int3 *cells, int3 *dcells0, int3 *dcells1, int3 *dcells2, int3 *dcells3, int3 *dcells4, int3 *dcells5, int3 *dcells6, int3 *dcells7, int w, int h", """ int x = i / h; int y = i % h; int3 cell = cells[i]; float M = (float) cell.y; float T = (float) cell.z; int Mi = (int) (fmin(1, T / Tk) * M); cells[i].y -= Mi; cells[i].z -= (int) (T * fmin(1, T / Tk) / 1); int Fi = cell.x; int Mbase = Mi / 8; int Mpart = Mi % 8; int Madd; int Ti = cell.z; int ii, xo, yo; for (int cc = 0; cc < 9; cc++) { int c = (cc + Fi) % 9; if (c == 4) continue; xo = x + c%3 - 1; if (xo < 0) xo = w + xo; if (xo >= w) xo = xo - w; yo = y + c/3 - 1; if (yo < 0) yo = h + yo; if (xo >= w) yo = yo - h; ii = xo * h + yo; if (Mpart > 0) { Madd = 1; Mpart--;} else Madd = 0; switch(c) { case 0: dcells0[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 1: dcells1[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 2: dcells2[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 3: dcells3[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 5: dcells4[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 6: dcells5[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 7: dcells6[ii] = make_int3(Fi, Mbase + Madd, Ti); break; case 8: dcells7[ii] = make_int3(Fi, Mbase + Madd, Ti); break; default: break; } } """, "ca_prepare", preamble=""" #define Tk %s """ % Tk) absorb_gpu = ElementwiseKernel("int3 *cells, int3 *dcells0, int3 *dcells1, int3 *dcells2, int3 *dcells3, int3 *dcells4, int3 *dcells5, int3 *dcells6, int3 *dcells7, int *img, int w, int h", """ int3 cell = cells[i]; int3 dcell = dcells0[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; dcell = dcells1[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells2[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells3[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells4[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells5[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells6[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; dcell = dcells7[i]; cell = cell + calc_d(cell.x, cell.y, cell.z, dcell.x, dcell.y, dcell.z); cell.x = cell.x % 360; if (cell.x < 0) cell.x += 360; if (cell.z > Tk) cell.z = Tk; cells[i] = cell; img[i] = hsv2rgb(cell); """, "ca_calc", preamble=""" #include <math.h> #define Mk %s #define Tk %s __device__ int3 operator+(const int3 &a, const int3 &b) { return make_int3(a.x+b.x, a.y+b.y, a.z+b.z); } __device__ int3 calc_d(int Fc, int Mc, int Tc, int Fi, int Mi, int Ti) { int dF = Fi - Fc; if (dF > 180) Fc += 360; if (dF < -180) Fc -= 360; float sM = Mi + Mc; if (sM != 0) sM = Mi / sM; else sM = 0; dF = (int) (Fi - Fc) * sM; int dM = Mi; int dT = fabs((float) (Fi - Fc)) * fmin((float) Mc, (float) Mi) / Mk + (Ti - Tc) * sM; return make_int3(dF, dM, dT); } __device__ uint hsv2rgb(int3 pixel) { // skipped for brevity } """ % (Mk, Tk, RAM))

1条回答

网友

1楼 · 发布于 2024-10-02 00:25:40

好吧，我设法使第二个解决方案的运行速度快了15倍。进行了以下更改：

将主参数数组从int转换为int4。这使得它比int3的解决方案更快。不过，多余的空间未使用（.w维）。[3x加速]
在WIDTHxHEIGHT组中重新打包相关参数。所以，形状从（宽，高，N）变为（N，宽，高）。这使得内存访问更加高效，因为组内的元素往往是一起处理的。[5x加速]

优化后的代码如下所示：

Mk = 64
Tk = 1000

emit_gpu = ElementwiseKernel("int4 *cells, int w, int h, int cn", """
    int x = i / h;
    int y = i % h;

    int4 cell = cells[i];
    int Fc = cell.x;
    int Mc = cell.y;
    int Tc = cell.z;
    float M = (float) Mc;
    float T = (float) Tc;
    int Mi = (int) (fmin(1, T / Tk) * M);
    cells[i] = make_int4(Fc, Mc - Mi, Tc - (int) (T * fmin(1, T / Tk)), 0);

    int Mbase = Mi / 8;
    int Mpart = Mi % 8;
    int Madd;
    int ii;
    int xo, yo;

    int cnn = 0;
    for (int dx = -1; dx < 2; dx++) {
      xo = x + dx;
      if (xo < 0) xo = w + xo; else if (xo >= w) xo = xo - w;
      for (int dy = -1; dy < 2; dy++) {
        if (dx == 0 && dy == 0) continue;
        cnn += cn;
        yo = y + dy;
        if (yo < 0) yo = h + yo; else if (yo >= h) yo = yo - h;
        if (Mpart > 0) { Madd = 1; Mpart ;} else Madd = 0;
        ii = (xo * h + yo) + cnn;
        cells[ii] = make_int4(Fc, Mbase + Madd, Tc, 0);
      }
    } 
""", "ca_emit", preamble="""
#define Tk %s
#define CN %s
""" % (Tk, CELL_LEN))

absorb_gpu = ElementwiseKernel("int4 *cells, int *img, int w, int h, int cn", """
    int ii = i;
    int4 cell = cells[i];
    int Fc = cell.x;
    int Mc = cell.y;
    int Tc = cell.z;

    for (int c=0; c < 8; c++){
      ii += cn;
      cell = cells[ii];
      int Fi = cell.x;
      int Mi = cell.y;
      int Ti = cell.z;

      int dF = Fi - Fc;
      if (dF > 180) Fc += 360;
      if (dF < -180) Fc -= 360;
      float sM = Mi + Mc;
      if (sM != 0) sM = Mi / sM; else sM = 0;
      dF = (int) (Fi - Fc) * sM;
      int dM = Mi;
      int dT = fabs((float) (Fi - Fc)) * fmin((float) Mc, (float) Mi) / Mk + (Ti - Tc) * sM;
      Fc += dF;
      Mc += dM;
      Tc += dT;
      Fc = Fc % 360;
      if (Fc < 0) Fc += 360;
      if (Tc > Tk) Tc = Tk;
    }      

    cells[i] = make_int4(Fc, Mc, Tc, 0);
    img[i] = hsv2rgb(Fc, Tc, Mc);

""", "ca_absorb", preamble="""
#include <math.h>
#define Mk %s
#define Tk %s

__device__ uint hsv2rgb(int hue, int sat, int val) {
    // skipped for brevity
}
""" % (Mk, Tk))

感谢Park Young Bae提供了重新打包的线索，也感谢Alexey Shchepin提供了一些优化问题。在

相关问题更多 >

编程相关推荐

热门问题

热门文章