Tensorboard原木PPO2稳定基线中的峰值

2024-09-30 01:30:09 发布

您现在位置:Python中文网/ 问答频道 /正文

Python3.7-Tensorflow 1.14.0

我正在使用stable baseline PPO2 model运行一个自定义健身房环境,并将MlpLstmPolicy作为策略

训练完模型后,我看了一下张力板原木。 在“输入”和“损耗”选项卡上,您可以清楚地看到图表上的峰值

Tesorboard logs - Scalars tab - Input

Tesorboard logs - Scalars tab - Loss

这是电影的特写镜头 Loss chart

有人知道为什么会发生这种情况吗?是因为数据集,因为超参数,还是因为环境

我知道这是一个非常广泛的问题,希望有人能帮助

如果我能提供更具体的信息,请告诉我


Tags: 模型model环境tensorflow图表策略选项卡损耗
1条回答
网友
1楼 · 发布于 2024-09-30 01:30:09

我想有这么多的信息,真的很难说出发生了什么。在过去的几个月里,我还在训练一些避碰模型。根据我的经验,我认为在训练中出现尖峰是正常的。我认为唯一重要的是,在平滑之后,总体回报应该增加。在我的例子中,当我为一些代理并行训练多个代理时,我得到了尖峰。手头的任务非常困难,他们通常不会积累很多奖励,而且最初的探索概率很高,这可能是你得到尖峰的原因

相关问题 更多 >

    热门问题