DQN到底是如何学习的?我在gym中创建了我的自定义环境,这是一个迷宫。我使用带有BoltzmannQPolicy的DQN模型。 它通过以下变量进行良好训练: 代理人的立场 距离端点的距离 端点位置 它可以向哪个方向移动 ...2024-03-29 已阅读: n次