现代IRL和模仿学习算法的实现。
imitation的Python项目详细描述
模仿学习基线实现
该项目旨在提供模拟学习算法的干净实现。 目前我们有行为克隆的实现,DAgger(使用合成示例)、Adversarial Inverse Reinforcement Learning和{a7}。在
安装:
安装PyPI release
pip install imitation
安装最新提交
^{pr2}$可选Mujoco依赖项:
按照说明安装mujoco_py v1.5 here。在
CLI快速启动:
我们提供了几个CLI脚本作为imitation
中实现的算法的前端。它们使用Sacred进行配置和复制。在
# Train PPO agent on cartpole and collect expert demonstrations. Tensorboard logs saved in `quickstart/rl/` python -m imitation.scripts.expert_demos with fast cartpole log_dir=quickstart/rl/ # Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory). python -m imitation.scripts.train_adversarial with fast gail cartpole rollout_path=quickstart/rl/rollouts/final.pkl # Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory). python -m imitation.scripts.train_adversarial with fast airl cartpole rollout_path=quickstart/rl/rollouts/final.pkl
小贴士:
- 从上面的命令中删除“fast”选项,以便完成训练运行。在
python -m imitation.scripts.expert_demos print_config
将列出神圣的脚本选项。这些配置选项记录在每个脚本的docstring中。在
{a1}有关如何配置神圣命令行的更多信息,请参见^ 1。在
Python界面快速启动:
请参见examples/quickstart.py以获取加载CartPole-v1演示并在该数据上训练BC、GAIL和AIRL模型的示例脚本。在
BC、GAIL和air还接受任何Pytorch风格的数据加载器,它迭代包含观察、动作和next观察的字典。在
密度奖励基线
我们还实施了基于密度的奖励基准。你可以找到一个example notebook here。在
贡献
{a14}。在
- 项目
标签: