现代IRL和模仿学习算法的实现。

imitation的Python项目详细描述


CircleCIDocumentation StatuscodecovPyPI version

模仿学习基线实现

该项目旨在提供模拟学习算法的干净实现。 目前我们有行为克隆的实现,DAgger(使用合成示例)、Adversarial Inverse Reinforcement Learning和{a7}。在

安装:

安装PyPI release

pip install imitation

安装最新提交

^{pr2}$

可选Mujoco依赖项:

按照说明安装mujoco_py v1.5 here。在

CLI快速启动:

我们提供了几个CLI脚本作为imitation中实现的算法的前端。它们使用Sacred进行配置和复制。在

examples/quickstart.sh:

# Train PPO agent on cartpole and collect expert demonstrations. Tensorboard logs saved in `quickstart/rl/`
python -m imitation.scripts.expert_demos with fast cartpole log_dir=quickstart/rl/

# Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial with fast gail cartpole rollout_path=quickstart/rl/rollouts/final.pkl

# Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial with fast airl cartpole rollout_path=quickstart/rl/rollouts/final.pkl

小贴士:

  • 从上面的命令中删除“fast”选项,以便完成训练运行。在
  • python -m imitation.scripts.expert_demos print_config将列出神圣的脚本选项。这些配置选项记录在每个脚本的docstring中。在

{a1}有关如何配置神圣命令行的更多信息,请参见^ 1。在

Python界面快速启动:

请参见examples/quickstart.py以获取加载CartPole-v1演示并在该数据上训练BC、GAIL和AIRL模型的示例脚本。在

BC、GAIL和air还接受任何Pytorch风格的数据加载器,它迭代包含观察、动作和next观察的字典。在

密度奖励基线

我们还实施了基于密度的奖励基准。你可以找到一个example notebook here。在

贡献

{a14}。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java提供了大量的Quartz工作线程   来自SOAPException的java抛出超时异常   java通过REST web服务同步PostgreSQL过程调用   java Hibernate:在关联表中设置值   javaimapidlechanneladapterjavax。邮政AuthenticationFailedException:[警报]同时连接太多   JavaApacheStorm:stormkafkamonitor脚本引发异常   java将jar链接到战争   Matlab与Java的集成方法   安卓公司。谷歌。ads.AdView未能实例化java。lang.ClassNotFoundException:org。json。JSONException   “String forecastStr=mForecastAdapter.getItem(position);”行中出现java错误阳光工程   java如何将Mono中的列表属性作为流量进行操作?   java DecimalFormat类不必要地给出整数   java@IfProfileValue两个spring配置文件   java如何使用SwingWorker创建多线程?   java从扩展SwingWorker的内部类触发事件   java二叉树高度实现