DQN到底是如何学习的?

2024-04-27 15:37:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我在gym中创建了我的自定义环境,这是一个迷宫。我使用带有BoltzmannQPolicyDQN模型。 它通过以下变量进行良好训练:

  • 代理人的立场
  • 距离端点的距离
  • 端点位置
  • 它可以向哪个方向移动

所以我没有给它一个图像或任何东西。如果我在相同的环境(相同的迷宫,不改变墙壁的位置)中训练和测试它,它可以很容易地解决问题。但是如果我没有经过训练就把它引入一个完全不同的环境(迷宫),那么它就不知道该怎么办了。我不知道问题是否出在我的代码上,或者DQN只是为了解决相同的环境


Tags: 代码模型图像距离环境dqn方向端点