根据稳定基线绘制熵、平均奖励等

2024-10-02 16:30:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我通过从StableBaselines实现step, reset and render方法构建了一个自定义环境,但我不知道如何打印一些绘图

例如,我的代理(在离散的动作空间中)执行动作的次数=0、1、2等

环境发出了什么信号

奖励是如何运作的

我找到了关于结果的绘图仪,但找不到它的很多信息

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")

Tags: and方法绘图代理环境信号step空间
1条回答
网友
1楼 · 发布于 2024-10-02 16:30:48

目前还没有预先制作的工具。看看Monitor包装器,以及它如何跟踪情节奖励。它将生成一个日志文件,您可以使用该文件获取一些度量。这是你最好的选择

我还建议您也看看Tensorboard,因为它可能会提供一些实时信息

相关问题 更多 >