我在gym
中创建了我的自定义环境,这是一个迷宫。我使用带有BoltzmannQPolicy
的DQN
模型。
它通过以下变量进行良好训练:
- 代理人的立场
- 距离端点的距离
- 端点位置
- 它可以向哪个方向移动
所以我没有给它一个图像或任何东西。如果我在相同的环境(相同的迷宫,不改变墙壁的位置)中训练和测试它,它可以很容易地解决问题。但是如果我没有经过训练就把它引入一个完全不同的环境(迷宫),那么它就不知道该怎么办了。我不知道问题是否出在我的代码上,或者DQN
只是为了解决相同的环境
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐