简单强化学习算法的损失函数

1条回答

网友

1楼 · 发布于 2024-09-28 03:13:55

好问题科里。我还想知道这个在RL中流行的损失函数到底意味着什么。我已经看到了它的许多实现，但是很多都是相互矛盾的。据我所知，这意味着：

损失=-log（pi）*A

其中A是与基线情况相比的优势。在Google的例子中，他们使用的基线是0，所以a=R。这个值乘以那个特定时间的特定动作，所以在上面的例子中，动作被热编码为[1，0，0]。我们忽略0，只取1。因此我们得到了上面的等式。在

如果你凭直觉计算出负回报的损失：

损耗=（-1）*对数（p）

但对于任何小于1的p，该值的log将为负。因此，你有一个负损失，可以解释为“非常好”，但实际上没有物理意义。在

正确的方法：

但是在我看来，请别人纠正我，如果我错了，你不要直接计算损失。你取损失的梯度。也就是说，取-log（pi）*A的导数

因此，您可以：

-（d（π）/pi）*A

现在，如果你有一个巨大的负回报，它将转化为一个非常大的损失。在

我希望这有道理。在