处理后的数据是实时的视频(一组连续的帧),所有这些都需要在DX12缓冲区中结束。在
我不太在乎在训练期间数据是否被复制到系统内存中,但在评估期间,它必须留在GPU上。在
我会用python单独训练网络,允许很高的延迟,但是在训练之后,我会在GPU上完全使用它(因为我的帧已经在那里了)。从我的观点来看(有GPGPU编程经验,但对Tensorflow不太熟悉)有两种方法:
用python从训练好的模型中提取参数(权重和偏差),并将它们上传到GPU上具有相同网络拓扑结构的c++程序中并在那里运行。它的行为应该像一个训练它的张量流网络。
在c++程序中使用Tensorlow,只需传递输入和输出的缓冲句柄(就像GPGPU那样),然后与DX12进行互操作(因为我需要在这里结束计算)。
想知道这些选择是否可行,如果有,哪一个更好,为什么?在
如果我有什么不清楚的地方,请在评论中告诉我。在
目前没有回答
相关问题 更多 >
编程相关推荐