我已经使用Tensorflow为DQN代理创建了一个自定义环境,无论我多么希望根据观察规范的状态修改操作规范
我的动作规范是 self.\u action\u spec=array\u spec.BoundedArraySpec(shape=(),dtype=np.int32,最小值=0,最大值=3,name='action') 因为我有4个可能的动作。(0,1,2,3)但是,根据观察规范状态/信息,我希望也只允许操作0和3作为下一个操作
我希望有一种方法可以在我的环境中添加这个,而不是使用观察和约束拆分器。但是我不知道如何重新定义自我。_action_spec也只允许操作0和3
目前没有回答
相关问题 更多 >
编程相关推荐