擅长:python、mysql、java
<p>随着越来越多的反馈,汤普森抽样将其重点越来越多地从勘探转移到开发。也就是说,对于大的<code>nSelected</code>值(由于大的<code>N</code>),所有的贝塔分布将非常集中在它们的平均值(<code>nPosReward[i]/nSelected[i]</code>)周围,对于更大的迭代,随着概率的增加,汤普森采样将选择它认为最有价值的机器。通过观察足够长的视界,您将看到考虑得最好的机器也是最常选择的机器的概率推近1</p>
<p>总之,你的直觉是正确的。期望值最高的机器(考虑到目前为止观察到的反馈)是经验平均值最高的机器。由于我刚才描述的概率现象,如果运行该算法足够长的时间,最频繁拾取的机器和预期回报最高的机器将与接近1的概率一致</p>
<p>关于你问题的第二部分,我们不知道成功率。如果我们知道它们,最优算法将简单地选择在任何时候都具有最高成功率的算法。我们在现实生活中所做的就是观察这些随机过程的输出。例如,当你显示在线广告时,你不知道他们点击的概率。然而,假设每个人的行为方式都相同,通过向人们展示并观察他们是否点击,我们可以快速了解成功率</p>