马尔科夫决策过程的数据结构

网友

1楼 · 编辑于 2024-05-20 21:29:28

数据结构是否合适主要取决于您对数据的处理方式。你提到你想在这个过程中迭代，所以为此优化你的数据结构。

马尔可夫过程中的跃迁通常用矩阵乘法来模拟。过渡概率Pa(s1,s2)和回报Ra(s1,s2)可以用（潜在稀疏的）矩阵Pa和Ra来描述，矩阵由状态索引。我认为这有几个好处：

网友

2楼 · 编辑于 2024-05-20 21:29:28

有一个用python实现的MDP称为pymdptoolbox。它是在用Matlab实现MDPToolbox的基础上开发的。两者都值得注意。

基本上，概率转移矩阵表示为一个（A×S×S）数组，奖励表示为一个（S×A）矩阵，其中S和A表示状态数和动作数。该软件包对稀疏矩阵也有一些特殊的处理。

网友

3楼 · 编辑于 2024-05-20 21:29:28

我以前在Python中实现过Markov决策过程，发现下面的代码很有用。

这段代码取自Stuart Russell和Peter Norvig的《人工智能：现代方法》。