我正试图理解如何使用mdptoolbox,我有几个问题。在
在下面的语句中,20
是什么意思?在
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10
这里表示可能状态的数目。这里20
是什么意思?它是否表示每个状态的操作总数?我想将MDP限制为每个状态正好2个操作。我怎么能这么做?在
上面返回的P
的形状是(2, 10, 10)
。2
在这里代表什么?不管我对总状态和操作使用什么值,它总是2
。在
Tags:
您正在运行的代码是正确的,但您使用的是工具箱中的示例。在
请仔细阅读documentation。在
在以下代码中:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
第二个参数不是MDP的操作参数。Its documentation解释第二个参数如下:
在您的例子中,当林处于最旧状态并且执行操作
Wait
时,奖励的值作为20
传递。在在本例中,林由两个操作管理:}。请参考此documentation了解更多详细信息。因为有两个动作是可能的,所以这个函数返回的转移概率矩阵
‘Wait’
和{P
的第一维大小也是2
。不需要手动将操作空间维度限制为2
。在要理解这个工具箱的用法,还应该浏览this link。在
相关问题 更多 >
编程相关推荐