使用值迭代算法与mdptoolbox时发生OverflowError

import mdptoolbox import numpy as np transitions = np.array([ # action 1 (Right) [ [0.1, 0.7, 0.1, 0.1], [0.3, 0.3, 0.3, 0.1], [0.1, 0.2, 0.2, 0.5], [0.1, 0.1, 0.1, 0.7] ], # action 2 (Down) [ [0.1, 0.4, 0.4, 0.1], [0.3, 0.3, 0.3, 0.1], [0.4, 0.1, 0.4, 0.1], [0.1, 0.1, 0.1, 0.7] ], # action 3 (Left) [ [0.4, 0.3, 0.2, 0.1], [0.2, 0.2, 0.4, 0.2], [0.5, 0.1, 0.3, 0.1], [0.1, 0.1, 0.1, 0.7] ], # action 4 (Top) [ [0.1, 0.4, 0.4, 0.1], [0.3, 0.3, 0.3, 0.1], [0.4, 0.1, 0.4, 0.1], [0.1, 0.1, 0.1, 0.7] ] ]) rewards = np.array([ [-1, -100, -1, 1], [-1, -100, -1, 1], [-1, -100, -1, 1], [1, 1, 1, 1] ]) vi = mdptoolbox.mdp.ValueIteration(transitions, rewards, discount=0.5) vi.setVerbose() vi.run() print("Value function:") print(vi.V) print("Policy function") print(vi.policy)

1条回答

网友

1楼 · 发布于 2024-09-27 23:18:24

所以结果是我定义的奖励矩阵是不正确的。根据上图中定义的奖励矩阵，它应该是(S,A)类型，如documentation所示，其中每一行对应于从S1到{}开始的状态，每一列对应于从A1到{}的操作。新的奖励矩阵如下所示：

#(S,A)
rewards = np.array([
    [-1, -1, -1, -1],
    [-100, -100, -100, -100],
    [-1, -1, -1, -1],
    [1, 1, 1, 1]
])

用这个很好。但我仍然不确定，是什么原因导致了溢出错误。在

相关问题更多 >

编程相关推荐

热门问题

热门文章