在tensorflow中使用纯张量风格(无需输入)实现强化学习?

2024-05-18 17:41:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我在tensorflow中用纯张量风格实现强化学习(RL)算法时遇到问题。这个想法来自Deepmind的IMPALA的实现。代码是用纯张量风格编写的,没有获取和馈送。作者使用tf.py_函数()将模拟器转换为tensorflow操作。然后工作人员把数据放到tf.队列学习者从tf.contrib.分段.StagingArea来计算损失函数和优化器。最后,优化器的一次获取将运行所有算法。我想把代码转换成其他RL算法。所以作为练习,我试着用健身房训练,我试着用策略梯度(PG)和近端策略优化(PPO)。然而,我在过去几周有非常糟糕的结果,需要有人的帮助。你知道吗

在我的repo中运行健身房游戏的代码。你知道吗

我不确定我是否在PG算法上做对了。“CartPole-v0”的PG结果。它最终收敛到200分。但是“LunarLander-v2”的PG结果看起来有问题。算法首先学习了一些东西,但是过了一段时间,偶发返回急剧下降到一个错误的地方,再也没有回来。但我的PPO什么也学不到。(see pictures here

我的实现在这里:PG,和PPO。你知道吗

请帮我找出我的代码出了什么问题?纯张量码的结果应该与传统的结果相匹配。作为参考,我还提供了这些使用传统的tensorflow获取和馈送的RL算法:PG conventionalPPO conventional。你知道吗


Tags: 函数代码算法风格tftensorflow传统策略

热门问题