tf-agents:tensorflow的强化学习库
tf-agents的Python项目详细描述
#tf agents:tensorflow中用于强化学习的库
*注:*当前tf agents的预发布正在积极开发中,
接口可能随时更改。欢迎随时提供反馈和意见。
>文档、示例和教程将在未来几周内不断增长。
<;a a a a href=“代理”>;代理<;a>;lt;br>;
<;a a a a<<<<<<<<<<<<;
<;a a a='示例示例<;示例<;示例<<;示例<;示例<;示例<;示例<<;示例<;示例>;示例<;示例<;示例<<;lt/a>;<;br>;
<;alt;lt;br>;
<;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;br>;
<;lt;lt;lt;lt;lt;lt;br>;
<;lt;a;lt;a;lt;lt;lt;lt;lt;lt;a;lt;lt;lt;a;lt;lt;lt;lt;br>;
<;lt;lt;a;lt;a;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt er'>;免责声明<;/a>;<;br>;
<;a id='agents'>;<;/a>;
agents
以及如何从收集到的经验中学习/训练该策略。
目前tf代理下有以下算法:
*dqn:“通过深度强化学习实现人的水平控制”,2015 HTTPS://DeavyCy/St/DQN/BR/>*DDQN:*深度强化学习与双Q-LealSngy Haselt等,2015 HTTPS://ARXIV.ORG/ABS/1509.06461=BR/**DDPG:γ-连续控制与深度强化学习LILICRAP等。http://ARXIV.ORG/ABS/1509.02971<BR/**TD3:Y-寻址函数逼近误差在演员评论方法S.Fujimoto等。http://ARXIV.ORG/ABS/1802.09477。BR/>增强:连接主义强化学习的简单统计梯度算法:威廉姆斯http://WWW ANW.C.UMAS.EDU/~ BARTO/CURS/CS68 7/WiLAMS92Simple。PDF
PPO:γ-近端策略优化算法舒尔曼等。http://ARXIV.org/ABS/1707.06347<BR/> *SAC:/ABS/1812.05905(BR/>>Br//lt;/lt;/a & gt;br/> http://ARXIV.org
示例
可以在每个代理目录下找到端到端示例培训代理。
例如:
*dqn:[`tf-agents/agents/dqn/examples/train-eval-gym.py`](https://github.com/tensorflow/agents/tree/master/tf-agents/agents/dqn/examples/train-eval-gym.py)
<;a id=“installation”>;<;/a>;
但可能不如版本控制的版本稳定。
请参见[`contribution.md`](contribution.md)
了解如何进行贡献的指南。本项目遵循Tensorflow的
[行为准则](code_of_conduct.md)。通过参与,您应该
坚持这一准则。
<;a id=”原则”>;
/a>;
引文
如果您使用此代码,请将其引述为:
```
@misc{tf agents,
title={{tfagents}:Tensorflow中的强化学习库,
作者:“{sergio guadarrama,Anoop Koratikara,Oscar Ramirez,
Pablo Castro,Ethan Holly,Sam Fishman,Ke Wang,叶卡捷琳娜Gonina,
Chris Harris,Vincent Vanhoucke,Eugene Brevdo}”,
howpublipublished={\url{https://github.com/tensorflow/agents},
url=“https://github.com/tensorflow/agents”,
year=2018,
注意:“[online;访问时间2018-11-2018年11月30日]”
```
<;a id='免责声明>;lt;a id='disclaimer>;;
;免责声明
>
>这不是谷歌的官方产品。
<<<<<<<<<
<<<<<
*注:*当前tf agents的预发布正在积极开发中,
接口可能随时更改。欢迎随时提供反馈和意见。
>文档、示例和教程将在未来几周内不断增长。
<;a a a a href=“代理”>;代理<;a>;lt;br>;
<;a a a a<<<<<<<<<<<<;
<;a a a='示例示例<;示例<;示例<<;示例<;示例<;示例<;示例<<;示例<;示例>;示例<;示例<;示例<<;lt/a>;<;br>;
<;alt;lt;br>;
<;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;br>;
<;lt;lt;lt;lt;lt;lt;br>;
<;lt;a;lt;a;lt;lt;lt;lt;lt;lt;a;lt;lt;lt;a;lt;lt;lt;lt;br>;
<;lt;lt;a;lt;a;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt;lt er'>;免责声明<;/a>;<;br>;
<;a id='agents'>;<;/a>;
agents
以及如何从收集到的经验中学习/训练该策略。
目前tf代理下有以下算法:
*dqn:“通过深度强化学习实现人的水平控制”,2015 HTTPS://DeavyCy/St/DQN/BR/>*DDQN:*深度强化学习与双Q-LealSngy Haselt等,2015 HTTPS://ARXIV.ORG/ABS/1509.06461=BR/**DDPG:γ-连续控制与深度强化学习LILICRAP等。http://ARXIV.ORG/ABS/1509.02971<BR/**TD3:Y-寻址函数逼近误差在演员评论方法S.Fujimoto等。http://ARXIV.ORG/ABS/1802.09477。BR/>增强:连接主义强化学习的简单统计梯度算法:威廉姆斯http://WWW ANW.C.UMAS.EDU/~ BARTO/CURS/CS68 7/WiLAMS92Simple。PDF
PPO:γ-近端策略优化算法舒尔曼等。http://ARXIV.org/ABS/1707.06347<BR/> *SAC:/ABS/1812.05905(BR/>>Br//lt;/lt;/a & gt;br/> http://ARXIV.org
示例
可以在每个代理目录下找到端到端示例培训代理。
例如:
*dqn:[`tf-agents/agents/dqn/examples/train-eval-gym.py`](https://github.com/tensorflow/agents/tree/master/tf-agents/agents/dqn/examples/train-eval-gym.py)
<;a id=“installation”>;<;/a>;
但可能不如版本控制的版本稳定。
请参见[`contribution.md`](contribution.md)
了解如何进行贡献的指南。本项目遵循Tensorflow的
[行为准则](code_of_conduct.md)。通过参与,您应该
坚持这一准则。
<;a id=”原则”>;
/a>;
引文
如果您使用此代码,请将其引述为:
```
@misc{tf agents,
title={{tfagents}:Tensorflow中的强化学习库,
作者:“{sergio guadarrama,Anoop Koratikara,Oscar Ramirez,
Pablo Castro,Ethan Holly,Sam Fishman,Ke Wang,叶卡捷琳娜Gonina,
Chris Harris,Vincent Vanhoucke,Eugene Brevdo}”,
howpublipublished={\url{https://github.com/tensorflow/agents},
url=“https://github.com/tensorflow/agents”,
year=2018,
注意:“[online;访问时间2018-11-2018年11月30日]”
```
<;a id='免责声明>;lt;a id='disclaimer>;;
;免责声明
>
>这不是谷歌的官方产品。
<<<<<<<<<
<<<<<