根据稳定基线绘制熵、平均奖励等

2024-10-02 16:30:48 发布

男 | 程序猿一只，喜欢编程写python代码。

我通过从StableBaselines实现step, reset and render方法构建了一个自定义环境，但我不知道如何打印一些绘图

例如，我的代理（在离散的动作空间中）执行动作的次数=0、1、2等

环境发出了什么信号

奖励是如何运作的

我找到了关于结果的绘图仪，但找不到它的很多信息

results_plotter.plot_results(["."], 10e6, results_plotter.X_TIMESTEPS, "Market rewards")

Tags： and 方法绘图代理环境信号 step 空间

1条回答

网友

1楼 · 发布于 2024-10-02 16:30:48

目前还没有预先制作的工具。看看Monitor包装器，以及它如何跟踪情节奖励。它将生成一个日志文件，您可以使用该文件获取一些度量。这是你最好的选择

我还建议您也看看Tensorboard，因为它可能会提供一些实时信息