mutaliarmed bandit:当随机概率小于分配给bandi的成功概率时,为什么我们要将奖励增加1

2024-09-28 21:24:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用python来理解多武装土匪的问题。当随机概率小于指定盗贼的成功概率时,我不断遇到返回值为1(即奖励)的代码片段。请参阅下面的代码

def reward(prob):
    reward = 0;
    for i in range(10):
        if random.random() < prob:
            reward += 1
    return reward

我从下面的链接得到这个:http://outlace.com/rlpart1.html

我在另一个github页面上也看到了类似的内容。基于第一个环节,奖励函数背后的直觉是什么(它与实际的独臂匪徒的直觉如何相似),最后,当它小于概率时,为什么我们要给它分配1的奖励。当然应该是相反的,除非我弄错了。非常感谢。你知道吗


Tags: 代码infordef请参阅random概率盗贼
1条回答
网友
1楼 · 发布于 2024-09-28 21:24:38

如果您有选择arm的实际数据和成功标签,则此奖励功能将不存在。你知道吗

我的理解是,您这样做是因为您没有实际的数据响应数据。也就是说,你伸出一只手臂,你不知道自己是否已经走向成功(1)或不成功(0)。你知道吗

所以你只要假设,如果概率是0.7,70%的概率你会得到1。就像一个成功概率为0.7的伯努利变量。这个随机。随机()只供您执行。prob(手臂的成功概率)越大,你得到奖励的几率就越大。你知道吗

相关问题 更多 >