多武装土匪由汤普森抽样,乌布伯置信界,随机抽样。
thompson的Python项目详细描述
多武装匪徒
- Thompson是Python包来评估多武装强盗问题的。除thompson算法外,还实现了Upper-Confidence-Bound(UCB)算法和随机结果。在
- 在概率论中,多武装强盗问题是一个问题,其中一个固定的有限的资源集必须在竞争(可选)选择之间以最大化其预期收益的方式进行分配,当每个选择的属性在分配时只是部分已知,并且随着时间的推移可能会变得更好地理解通过为选择分配资源。这是一个典型的强化学习问题,它体现了探索-开发权衡困境wikipedia。在
- 在这个问题中,每台机器都会从特定于该机器的概率分布中提供随机奖励。赌徒的目标是通过一系列的杠杆拉扯使所获得的回报最大化。赌徒在每次审判中面临的关键权衡是在“利用”具有最高预期收益的机器和“探索”以获取有关其他机器预期收益的更多信息之间。在机器学习中,探索和开发之间的权衡也面临着。在实践中,多武装匪徒已被用来模拟问题,如管理研究项目,在一个大型组织,如科学基金会或制药公司{A3}。在
目录
安装
- 从PyPI安装thompson(推荐)。thompson与python3.6+兼容,可以在Linux、macosx和Windows上运行。在
- 根据麻省理工学院的许可证分发。在
要求
pipinstallmatplotlibnumpypandas
快速入门
^{pr2}$- 或者,从GitHub源安装thompson:
git clone https://github.com/erdogant/thompson.git
cd thompson
python setup.py install
进口汤普森包
importthompsonasmab
加载示例数据:
df=mab.example_data()
用汤普森计算多武装匪徒
out=mab.thompson(df)fig=mab.plot(out)
在
利用UCB置信上限计算多武装匪徒
out=mab.UCB(df)fig=mab.plot(out)
在
利用随机数据计算多武装匪徒
out=mab.UCB_random(df)fig=mab.plot(out)
在
df看起来是这样的:
Ad 1 Ad 2 Ad 3 Ad 4 Ad 5 Ad 6 Ad 7 Ad 8 Ad 9 Ad 10
0 1 0 0 0 1 0 0 0 1 0
1 0 0 0 0 0 0 0 0 1 0
2 0 0 0 0 0 0 0 0 0 0
3 0 1 0 0 0 0 0 1 0 0
4 0 0 0 0 0 0 0 0 0 0
... ... ... ... ... ... ... ... ... ...
9995 0 0 1 0 0 0 0 1 0 0
9996 0 0 0 0 0 0 0 0 0 0
9997 0 0 0 0 0 0 0 0 0 0
9998 1 0 0 0 0 0 0 1 0 0
9999 0 1 0 0 0 0 0 0 0 0
[10000 rows x 10 columns]
引文
如果这对你的研究有用,请在你的出版物中引用汤普森。以下是BibTeX条目示例:
@misc{erdogant2019thompson,title={thompson},author={Erdogan Taskesen},year={2019},howpublished={\url{https://github.com/erdogant/thompson}},}
参考文献
维护人员
- Erdogan Taskesen,github:erdogant
贡献
- 欢迎各界投稿!在
版权所有
有关详细信息,请参见LICENSE。在
- 项目
标签: