在tensorflow中使用纯张量风格（无需输入）实现强化学习？

2024-05-18 17:41:58 发布

男 | 程序猿一只，喜欢编程写python代码。

我在tensorflow中用纯张量风格实现强化学习（RL）算法时遇到问题。这个想法来自Deepmind的IMPALA的实现。代码是用纯张量风格编写的，没有获取和馈送。作者使用tf.py_函数（）将模拟器转换为tensorflow操作。然后工作人员把数据放到tf.队列学习者从tf.contrib.分段.StagingArea来计算损失函数和优化器。最后，优化器的一次获取将运行所有算法。我想把代码转换成其他RL算法。所以作为练习，我试着用健身房训练，我试着用策略梯度（PG）和近端策略优化（PPO）。然而，我在过去几周有非常糟糕的结果，需要有人的帮助。你知道吗

在我的repo中运行健身房游戏的代码。你知道吗

我不确定我是否在PG算法上做对了。“CartPole-v0”的PG结果。它最终收敛到200分。但是“LunarLander-v2”的PG结果看起来有问题。算法首先学习了一些东西，但是过了一段时间，偶发返回急剧下降到一个错误的地方，再也没有回来。但我的PPO什么也学不到。（see pictures here）

我的实现在这里：PG，和PPO。你知道吗

请帮我找出我的代码出了什么问题？纯张量码的结果应该与传统的结果相匹配。作为参考，我还提供了这些使用传统的tensorflow获取和馈送的RL算法：PG conventional和PPO conventional。你知道吗

Tags：函数代码算法风格 tf tensorflow 传统策略

0条回答

目前没有回答

在tensorflow中使用纯张量风格（无需输入）实现强化学习？

相关问题更多 >

编程相关推荐

热门问题

热门文章

在tensorflow中使用纯张量风格（无需输入）实现强化学习？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >