强化学习回归

2024-06-01 09:02:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试建立一个代理,可以发挥袖珍坦克使用RL。我现在面临的问题是如何训练神经网络输出正确的功率和角度。所以不是行动分类。我想要回归。你知道吗


Tags: 代理分类神经网络功率rl角度坦克
1条回答
网友
1楼 · 发布于 2024-06-01 09:02:28

为了输出正确的功率和角度,所有你需要做的就是进入你的神经网络结构,改变你的最后一层激活。你知道吗

在您的问题中,您声明当前正在使用动作分类输出,因此它很可能是softmax输出层。我们可以做两件事:

  1. 如果功率和角度有硬约束,例如角度不能大于360°,或功率不能超过700 kW,我们可以将softmax输出更改为TanH输出(双曲正切),并将其乘以功率/角度的约束。这将产生“缩放效应”,因为tanh的输出介于-1和1之间。将tanh的输出乘以功率/角度的约束可以确保始终满足约束,并且输出是正确的功率/角度。

  2. 如果你的问题没有限制。我们可以简单地一起删除softmax输出。删除softmax允许输出不再限制在0和1之间。神经网络的最后一层将简单地作为一个线性映射,即y=Wx+b。

我希望这有帮助!你知道吗

编辑:在这两种情况下,训练神经网络的奖励函数可能只是一个MSE损失。示例:损耗=(实际功率-估计功率)^2+(实际角度-估计角度)^2

相关问题 更多 >