脸书RL
reagent的Python项目详细描述
Facebook应用强化学习
![License](https://warehouse-camo.ingress.cmh1.psfhosted.org/5e228a9bb6b4e1b643ea8de2795cebc46ca3aeed/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6c6963656e73652d425344253230332d2d436c617573652d627269676874677265656e)
![CircleCI](https://warehouse-camo.ingress.cmh1.psfhosted.org/a90e521126ca9b98dd23e282bdb88f0726d1f159/68747470733a2f2f636972636c6563692e636f6d2f67682f66616365626f6f6b72657365617263682f52654167656e742f747265652f6d61737465722e7376673f7374796c653d736869656c64)
![codecov](https://warehouse-camo.ingress.cmh1.psfhosted.org/6f75ecb13c6456b29a793a03f8fe548bea7841be/68747470733a2f2f636f6465636f762e696f2f67682f66616365626f6f6b72657365617263682f52654167656e742f6272616e63682f6d61737465722f67726170682f62616467652e737667)
概述
试剂是一个开放源代码的端到端应用强化学习(RL)平台在Facebook上开发和使用。试剂是用pythorch构建的,用于建模和训练,TorchScript用于模型服务。该平台包含训练流行的deep-RL算法的工作流,包括数据预处理、特征转换、分布式训练、反事实策略评估和优化服务。有关试剂的详细信息,请参阅白皮书here。在
该平台曾被命名为“地平线”,但我们最近采用了“试剂”的名称,以强调其更广泛的决策和推理范围。在
支持的算法
- 离散动作DQN
- 参数作用DQN
- Double DQN,Dueling DQN,Dueling Double DQN
- 分布RL:C51和{a10}
- Twin Delayed DDPG(TD3)
- Soft Actor-Critic(SAC)
安装
试剂可通过安装。Docker或手动。有关如何安装试剂的详细说明可以在here找到。在
用法
关于如何使用试剂模型的详细说明可以在here找到。在
试剂服务平台(RASP)教程可用here。在
许可证
根据BSD 3条款许可证释放试剂。了解更多信息here。在
引用
@文章{gauci2018horizon, title={Horizon:Facebook的开源应用强化学习平台}, 作者{Gauci,Jason和Conti,Edoardo和Liang,Yitao和Virochiri,Kittipat和Chen,Zheng和He,Yuchen和Kaden,Zachary和Narayanan,Vivek和Ye,Xiahui}, 日志={arXiv预印本arXiv:1811.00260}, 年份:{2018} }在
- 项目
标签: