利用策略梯度的Karpathy码训练神经网络打乒乓球 - 问答 - Python中文网

利用策略梯度的Karpathy码训练神经网络打乒乓球

2024-09-30 12:30:36 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在看andrejkarpathy的“用原始像素的策略梯度训练一个神经网络ATARI-Pong代理”https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5。我不是Python的人，所以我尝试用Matlab编写这段代码。我有两个问题。在

问题1：我注意到xs、hs、dlogps、和{}被初始化为[],[],[],[]（第67行），并在每集之后重置为[],[],[],[]（第103行）。但是epx、eph、epdlogp、和{}既没有初始化也没有重置。它们似乎永远在生长（第99-102行）。我说的对吗？我不熟悉np.vstack的细微差别。在

问题2：如果我有一个游戏，玩家的移动选项是上、下、右、左，那么我需要如何修改这个代码才能使其工作（除了输出层中4个节点的明显修改之外）？在

谢谢。在

Tags：代码 https github com 代理神经网络像素策略

1条回答

网友

1楼 · 发布于 2024-09-30 12:30:36

我想你是在想象numpy.vstack的细微差别。链接到的代码的第99-102行将vstack函数的结果分配给相关变量。这些变量以前的任何值都将被替换。在

epx = np.vstack(xs)
eph = np.vstack(hs)
epdlogp = np.vstack(dlogps)
epr = np.vstack(drs)

在你的问题的第二部分，我认为你需要尝试一些东西，并提出一个新的问题，表明你已经尝试了什么，如果它不起作用。在

相关问题更多 >

编程相关推荐

热门问题

热门文章