为nump优化numpy数组的访问

from numba import jit, autojit, uint, double import numpy as np import imp import logging logging.getLogger('numba.codegen.debug').setLevel(logging.INFO) def sum_accum(accmap, a): res = np.zeros(np.max(accmap) + 1, dtype=a.dtype) for i in xrange(len(accmap)): res[accmap[i]] += a[i] return res autonumba_sum_accum = autojit(sum_accum) numba_sum_accum = jit(double[:](int_[:], double[:]), locals=dict(i=uint))(sum_accum) accmap = np.repeat(np.arange(1000), 2) np.random.shuffle(accmap) accmap = np.repeat(accmap, 10) a = np.random.randn(accmap.size) ref = sum_accum(accmap, a) assert np.all(ref == numba_sum_accum(accmap, a)) assert np.all(ref == autonumba_sum_accum(accmap, a)) %timeit sum_accum(accmap, a) %timeit autonumba_sum_accum(accmap, a) %timeit numba_sum_accum(accmap, a) accumarray = imp.load_source('accumarray', '/path/to/accumarray.py') assert np.all(ref == accumarray.accum(accmap, a)) %timeit accumarray.accum(accmap, a)

2条回答

网友

1楼 · 编辑于 2024-10-01 11:25:20

我自己想出来的。numba无法确定np.max(accmap)结果的类型，即使accmap的类型设置为int。这某种程度上减慢了一切，但修复很容易：

@autojit(locals=dict(reslen=uint))
def sum_accum(accmap, a):
    reslen = np.max(accmap) + 1
    res = np.zeros(reslen, dtype=a.dtype)
    for i in range(len(accmap)):
        res[accmap[i]] += a[i]
    return res

结果相当令人印象深刻，大约是C版的2/3：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 11:25:20

@autojit
def numbaMax(arr):
    MAX = arr[0]
    for i in arr:
        if i > MAX:
            MAX = i
    return MAX

@autojit
def autonumba_sum_accum2(accmap, a):
    res = np.zeros(numbaMax(accmap) + 1)
    for i in xrange(len(accmap)):
        res[accmap[i]] += a[i]
    return res

10 loops, best of 3: 26.5 ms per loop <- original
100 loops, best of 3: 15.1 ms per loop <- with numba but the slow numpy max
10000 loops, best of 3: 47.9 µs per loop <- with numbamax

相关问题更多 >

编程相关推荐

热门问题

热门文章