利用策略梯度的Karpathy码训练神经网络打乒乓球

2024-09-30 12:30:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我在看andrejkarpathy的“用原始像素的策略梯度训练一个神经网络ATARI-Pong代理”https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5。我不是Python的人,所以我尝试用Matlab编写这段代码。我有两个问题。在

问题1:我注意到xshsdlogps、和{}被初始化为[],[],[],[](第67行),并在每集之后重置为[],[],[],[](第103行)。但是epxephepdlogp、和{}既没有初始化也没有重置。它们似乎永远在生长(第99-102行)。我说的对吗?我不熟悉np.vstack的细微差别。在

问题2:如果我有一个游戏,玩家的移动选项是上、下、右、左,那么我需要如何修改这个代码才能使其工作(除了输出层中4个节点的明显修改之外)?在

谢谢。在


Tags: 代码httpsgithubcom代理神经网络像素策略
1条回答
网友
1楼 · 发布于 2024-09-30 12:30:36

我想你是在想象numpy.vstack的细微差别。链接到的代码的第99-102行将vstack函数的结果分配给相关变量。这些变量以前的任何值都将被替换。在

epx = np.vstack(xs)
eph = np.vstack(hs)
epdlogp = np.vstack(dlogps)
epr = np.vstack(drs)

在你的问题的第二部分,我认为你需要尝试一些东西,并提出一个新的问题,表明你已经尝试了什么,如果它不起作用。在

相关问题 更多 >

    热门问题