为什么我的奖励函数在Python中不返回任何值?好吧,我试着用keras和tensorflow做一个内在的好奇代理。这个代理的奖励函数是自动编码器在前一个和当前状态之间的损失,以及自动编码器在当前状态和想象的下一个状态之间的损失之差。然而,这个奖励 ...2024-10-01 已阅读: n次