tf-agents:tensorflow的强化学习库

tf-agents的Python项目详细描述


#tf agents:tensorflow中用于强化学习的库

*注:*当前tf agents的预发布正在积极开发中,
接口可能随时更改。欢迎随时提供反馈和意见。


>文档、示例和教程将在未来几周内不断增长。










<;a a a a href=“代理”>;代理<;a>;lt;br>;

<;a a a a<<<<<<<<<<<<;
<;a a a='示例示例<;示例<;示例<<;示例<;示例<;示例<;示例<<;示例<;示例>;示例<;示例<;示例<<;lt/a>;<;br>;
<;alt;lt;br>;
<;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;br>;
<;lt;lt;lt;lt;lt;lt;br>;
<;lt;a;lt;a;lt;lt;lt;lt;lt;lt;a;lt;lt;lt;a;lt;lt;lt;lt;br>;
<;lt;lt;a;lt;a;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt er'>;免责声明<;/a>;<;br>;



<;a id='agents'>;<;/a>;
agents



以及如何从收集到的经验中学习/训练该策略。


目前tf代理下有以下算法:

*dqn:“通过深度强化学习实现人的水平控制”,2015 HTTPS://DeavyCy/St/DQN/BR/>*DDQN:*深度强化学习与双Q-LealSngy Haselt等,2015 HTTPS://ARXIV.ORG/ABS/1509.06461=BR/**DDPG:γ-连续控制与深度强化学习LILICRAP等。http://ARXIV.ORG/ABS/1509.02971<BR/**TD3:Y-寻址函数逼近误差在演员评论方法S.Fujimoto等。http://ARXIV.ORG/ABS/1802.09477。BR/>增强:连接主义强化学习的简单统计梯度算法:威廉姆斯http://WWW ANW.C.UMAS.EDU/~ BARTO/CURS/CS68 7/WiLAMS92Simple。PDF
PPO:γ-近端策略优化算法舒尔曼等。http://ARXIV.org/ABS/1707.06347<BR/> *SAC:/ABS/1812.05905(BR/>>Br//lt;/lt;/a & gt;br/> http://ARXIV.org
示例
可以在每个代理目录下找到端到端示例培训代理。
例如:

*dqn:[`tf-agents/agents/dqn/examples/train-eval-gym.py`](https://github.com/tensorflow/agents/tree/master/tf-agents/agents/dqn/examples/train-eval-gym.py)

<;a id=“installation”>;<;/a>;
但可能不如版本控制的版本稳定。


请参见[`contribution.md`](contribution.md)
了解如何进行贡献的指南。本项目遵循Tensorflow的
[行为准则](code_of_conduct.md)。通过参与,您应该
坚持这一准则。

<;a id=”原则”>;
/a>;
引文

如果您使用此代码,请将其引述为:

```
@misc{tf agents,
title={{tfagents}:Tensorflow中的强化学习库,
作者:“{sergio guadarrama,Anoop Koratikara,Oscar Ramirez,
Pablo Castro,Ethan Holly,Sam Fishman,Ke Wang,叶卡捷琳娜Gonina,
Chris Harris,Vincent Vanhoucke,Eugene Brevdo}”,
howpublipublished={\url{https://github.com/tensorflow/agents},
url=“https://github.com/tensorflow/agents”,
year=2018,
注意:“[online;访问时间2018-11-2018年11月30日]”

```


<;a id='免责声明>;lt;a id='disclaimer>;
;免责声明



>
>这不是谷歌的官方产品。

<<<<<<<<<
<<<<<

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java传递实现接口的内部类   java为什么managedbean方法在post请求中的过滤器调用之前调用   java Android应用程序在Android M,O上崩溃,登录A/libc时出错:tid 17938中的致命信号11(SIGSEGV),代码2,故障地址0x343a2944   java JPA存储库。findByAll()返回null,但数据库中存在所有内容   用于发送电子邮件的java Ant脚本   Java小程序HTML页面发生了奇怪的事情   在Postman的请求正文中传递多个JSON数据,并使用Jersy(JXRS)进入Java Rest API   无法强制转换java DAO类   10分钟后重新连接java   正则表达式如何在java中选择字符串直到某个字符   java我的输出有一些问题   Objective中的java时间段   java如何在新屏幕上基于按钮单击在webview中打开url   java哪个selenium版本与Firefox ESR 45.2.0兼容   java无法使用Apache Camel 3.1.0将XML转换为JSON