我在看andrejkarpathy的“用原始像素的策略梯度训练一个神经网络ATARI-Pong代理”https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5。我不是Python的人,所以我尝试用Matlab编写这段代码。我有两个问题。在
问题1:我注意到xs
、hs
、dlogps
、和{[],[],[],[]
(第67行),并在每集之后重置为[],[],[],[]
(第103行)。但是epx
、eph
、epdlogp
、和{np.vstack
的细微差别。在
问题2:如果我有一个游戏,玩家的移动选项是上、下、右、左,那么我需要如何修改这个代码才能使其工作(除了输出层中4个节点的明显修改之外)?在
谢谢。在
我想你是在想象
numpy.vstack
的细微差别。链接到的代码的第99-102行将vstack
函数的结果分配给相关变量。这些变量以前的任何值都将被替换。在在你的问题的第二部分,我认为你需要尝试一些东西,并提出一个新的问题,表明你已经尝试了什么,如果它不起作用。在
相关问题 更多 >
编程相关推荐