如何指示CuPy在GPU中同时运行多个相同的作业？

import numpy as np import cupy as cp def job( nsamples ): # Do some CuPy tasks in GPU d_a = cp.random.randn( nsamples ) d_b = cp.random.randint( -3, high=3, size=nsamples ) d_result = ( d_a + d_b ) d_hist, _ = cp.histogram( d_result, bins=cp.array([-3,-2,-1,0,1,2,3,4]) ) std = cp.std( d_hist ) return std # Perform 1 job in GPU nsamples = 10 #can be as large as tens to hundreds of thousands std = job( nsamples, 0 ) print( 'std', std, type(std) )

# Create Cuda streams d_streams = [] for i in range(0, 10): d_streams.append( cp.cuda.stream.Stream( non_blocking=True ) ) # Perform Concurrent jobs via Cuda Stream. results = [] for stream in d_streams: with stream: results.append( job( nsamples ) ) print( 'results', results, len(results), type(std) )

1条回答

网友

1楼 · 发布于 2024-06-01 06:51:43

一般来说，我的建议是将所有数据连接在一起（跨作业），并以数据并行的方式完成工作。下面是一个粗略的例子：

$ cat t34.py
import numpy as np
import cupy as cp

def job( nsamples, njobs ):
    # Do some CuPy tasks in GPU
    d_a = cp.random.randn( nsamples, njobs )
    d_b = cp.random.randint( -3, high=3, size=(nsamples, njobs) )
    d_result = ( d_a + d_b )
    mybins = cp.array([-3,-2,-1,0,1,2,3,4])
    d_hist = cp.zeros((njobs,mybins.shape[0]-1))
    for i in range(njobs):
      d_hist[i,:], _ = cp.histogram( d_result[i,:], bins=mybins )
    std = cp.std( d_hist, axis=1 )
    return std

nsamples = 10 #can be as large as tens to hundreds of thousands
std = job( nsamples, 2 )
print( 'std', std, type(std) )
$ python t34.py
std [0.69985421 0.45175395] <class 'cupy.core.core.ndarray'>
$

对于job中的大多数操作，我们可以执行适当的cupy操作来处理所有作业的工作。举一个例子，std函数可以很容易地扩展以在所有作业中执行其工作histogram是个例外，因为numpy或cupy中的例程不允许使用分区/分段算法，我可以看到。所以我用了一个循环。如果这是您想要做的实际工作，那么可以编写一个分区直方图cupy例程作为cupy kernel。另一种选择是在streams中发布cupy直方图

相关问题更多 >

编程相关推荐

热门问题

热门文章