Python reagent包_程序模块 - PyPI - Python中文网

脸书RL

reagent的Python项目详细描述

Banner

Facebook应用强化学习

概述
试剂是一个开放源代码的端到端应用强化学习（RL）平台在Facebook上开发和使用。试剂是用pythorch构建的，用于建模和训练，TorchScript用于模型服务。该平台包含训练流行的deep-RL算法的工作流，包括数据预处理、特征转换、分布式训练、反事实策略评估和优化服务。有关试剂的详细信息，请参阅白皮书here。在
该平台曾被命名为“地平线”，但我们最近采用了“试剂”的名称，以强调其更广泛的决策和推理范围。在

支持的算法

离散动作DQN
参数作用DQN
Double DQN，Dueling DQN，Dueling Double DQN
分布RL:C51和{a10}
Twin Delayed DDPG（TD3）
Soft Actor-Critic（SAC）

安装
试剂可通过安装。Docker或手动。有关如何安装试剂的详细说明可以在here找到。在

用法

关于如何使用试剂模型的详细说明可以在here找到。在

试剂服务平台（RASP）教程可用here。在

许可证

根据BSD 3条款许可证释放试剂。了解更多信息here。在

引用
@文章{gauci2018horizon， title={Horizon:Facebook的开源应用强化学习平台}，作者{Gauci，Jason和Conti，Edoardo和Liang，Yitao和Virochiri，Kittipat和Chen，Zheng和He，Yuchen和Kaden，Zachary和Narayanan，Vivek和Ye，Xiahui}，日志={arXiv预印本arXiv:1811.00260}, 年份：{2018} }在
标签：
项目
欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

热门话题: java如何通过标记名检索多个标记中的元素以进行selenium自动化测试 java iText如何查找最后一行被拆分到下一页 java如何在hudson中的特定jdk上运行Findbugs和PMD？如何确保java程序与java Environment 6兼容？对形状进行分组，这样我就可以通过鼠标点击和java处理循环浏览它们使用生成器映射对象时，java定义无效 maven Java:Struts2和IntelliJ供初学者使用 java子类不继承父类字段 java Android Grid View在Android版本kitkat上崩溃 java Hibernate从缓存返回错误的列表，即使预期的列表与缓存的列表不同 java SendGrid：模板和替换标记用于普通生产者| Kafka流的java自定义分区器安卓理解Java内部类中的作用域无法从Android Studio中的非静态方法调用java非静态方法比较两个XML响应的JavaXMLUnit java使用keytool列出密钥不使用Java客户端库将视频上传到YouTube数据API v3 java My While循环即使在满足条件时也不会结束自动在外部存储字符串数据，以便以后在Java中使用