了解mdptoolbox forest examp的参数值

2024-09-27 23:26:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图理解如何使用mdptoolbox,我有几个问题。在

在下面的语句中,20是什么意思?在

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我知道10这里表示可能状态的数目。这里20是什么意思?它是否表示每个状态的操作总数?我想将MDP限制为每个状态正好2个操作。我怎么能这么做?在

上面返回的P的形状是(2, 10, 10)2在这里代表什么?不管我对总状态和操作使用什么值,它总是2。在


Tags: falseisexample状态代表语句形状sparse
1条回答
网友
1楼 · 发布于 2024-09-27 23:26:26

您正在运行的代码是正确的,但您使用的是工具箱中的示例。在

请仔细阅读documentation。在

在以下代码中:

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

第二个参数不是MDP的操作参数。Its documentation解释第二个参数如下:

The reward when the forest is in its oldest state and action ‘Wait’ is performed. Default: 4.

在您的例子中,当林处于最旧状态并且执行操作Wait时,奖励的值作为20传递。在

在本例中,林由两个操作管理:‘Wait’和{}。请参考此documentation了解更多详细信息。因为有两个动作是可能的,所以这个函数返回的转移概率矩阵P的第一维大小也是2。不需要手动将操作空间维度限制为2。在

要理解这个工具箱的用法,还应该浏览this link。在

相关问题 更多 >

    热门问题