强化学习回归 - 问答 - Python中文网

强化学习回归

2024-06-01 09:02:28 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试建立一个代理，可以发挥袖珍坦克使用RL。我现在面临的问题是如何训练神经网络输出正确的功率和角度。所以不是行动分类。我想要回归。你知道吗

Tags：代理分类神经网络功率 rl 角度坦克

1条回答

网友

1楼 · 发布于 2024-06-01 09:02:28

为了输出正确的功率和角度，所有你需要做的就是进入你的神经网络结构，改变你的最后一层激活。你知道吗

在您的问题中，您声明当前正在使用动作分类输出，因此它很可能是softmax输出层。我们可以做两件事：

如果功率和角度有硬约束，例如角度不能大于360°，或功率不能超过700 kW，我们可以将softmax输出更改为TanH输出（双曲正切），并将其乘以功率/角度的约束。这将产生“缩放效应”，因为tanh的输出介于-1和1之间。将tanh的输出乘以功率/角度的约束可以确保始终满足约束，并且输出是正确的功率/角度。
如果你的问题没有限制。我们可以简单地一起删除softmax输出。删除softmax允许输出不再限制在0和1之间。神经网络的最后一层将简单地作为一个线性映射，即y=Wx+b。

我希望这有帮助！你知道吗

编辑：在这两种情况下，训练神经网络的奖励函数可能只是一个MSE损失。示例：损耗=（实际功率-估计功率）^2+（实际角度-估计角度）^2

相关问题更多 >

编程相关推荐

热门问题

热门文章