2024-09-30 01:30:09 发布
网友
Python3.7-Tensorflow 1.14.0
我正在使用stable baseline PPO2 model运行一个自定义健身房环境,并将MlpLstmPolicy作为策略
训练完模型后,我看了一下张力板原木。 在“输入”和“损耗”选项卡上,您可以清楚地看到图表上的峰值
这是电影的特写镜头
有人知道为什么会发生这种情况吗?是因为数据集,因为超参数,还是因为环境
我知道这是一个非常广泛的问题,希望有人能帮助
如果我能提供更具体的信息,请告诉我
我想有这么多的信息,真的很难说出发生了什么。在过去的几个月里,我还在训练一些避碰模型。根据我的经验,我认为在训练中出现尖峰是正常的。我认为唯一重要的是,在平滑之后,总体回报应该增加。在我的例子中,当我为一些代理并行训练多个代理时,我得到了尖峰。手头的任务非常困难,他们通常不会积累很多奖励,而且最初的探索概率很高,这可能是你得到尖峰的原因
我想有这么多的信息,真的很难说出发生了什么。在过去的几个月里,我还在训练一些避碰模型。根据我的经验,我认为在训练中出现尖峰是正常的。我认为唯一重要的是,在平滑之后,总体回报应该增加。在我的例子中,当我为一些代理并行训练多个代理时,我得到了尖峰。手头的任务非常困难,他们通常不会积累很多奖励,而且最初的探索概率很高,这可能是你得到尖峰的原因
相关问题 更多 >
编程相关推荐