我试图用python来理解多武装土匪的问题。当随机概率小于指定盗贼的成功概率时,我不断遇到返回值为1(即奖励)的代码片段。请参阅下面的代码
def reward(prob):
reward = 0;
for i in range(10):
if random.random() < prob:
reward += 1
return reward
我从下面的链接得到这个:http://outlace.com/rlpart1.html
我在另一个github页面上也看到了类似的内容。基于第一个环节,奖励函数背后的直觉是什么(它与实际的独臂匪徒的直觉如何相似),最后,当它小于概率时,为什么我们要给它分配1的奖励。当然应该是相反的,除非我弄错了。非常感谢。你知道吗
如果您有选择arm的实际数据和成功标签,则此奖励功能将不存在。你知道吗
我的理解是,您这样做是因为您没有实际的数据响应数据。也就是说,你伸出一只手臂,你不知道自己是否已经走向成功(1)或不成功(0)。你知道吗
所以你只要假设,如果概率是0.7,70%的概率你会得到1。就像一个成功概率为0.7的伯努利变量。这个随机。随机()只供您执行。prob(手臂的成功概率)越大,你得到奖励的几率就越大。你知道吗
相关问题 更多 >
编程相关推荐