Skip to main content

现代奖励和模仿学习算法的实现。

项目描述

圈子CI 文件状态 编解码器 PyPI 版本

模仿学习基线实现

该项目旨在提供模仿和奖励学习算法的干净实现。目前,我们已经实现了行为克隆、DAgger(带有合成示例)、基于密度的奖励建模、最大因果熵逆强化学习、对抗逆强化学习生成对抗模仿学习来自人类偏好的深度强化学习。

在此处阅读文档

安装:

安装 PyPI 版本

pip install imitation

安装最新提交

git clone http://github.com/HumanCompatibleAI/imitation
cd imitation
pip install -e .

可选的 Mujoco 依赖:

按照说明在此处安装 mujoco_py v1.5

CLI 快速入门:

我们提供了几个 CLI 脚本作为imitation. 这些使用Sacred进行配置和可复制性。

来自示例/quickstart.sh:

# Train PPO agent on pendulum and collect expert demonstrations. Tensorboard logs saved in quickstart/rl/
python -m imitation.scripts.train_rl with pendulum common.fast train.fast rl.fast fast common.log_dir=quickstart/rl/

# Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial gail with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl

# Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial airl with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl

提示:

  • 从上面的命令中删除“快速”选项以允许训练运行完成。
  • python -m imitation.scripts.train_rl print_config将列出神圣脚本选项。这些配置选项记录在每个脚本的文档字符串中。

有关如何配置 Sacred CLI 选项的更多信息,请参阅Sacred 文档

Python 接口快速入门:

有关加载 CartPole-v1 演示并在该数据上训练 BC、GAIL 和 AIRL 模型的示例脚本,请参见examples/quickstart.py 。

密度奖励基线

我们还实施了基于密度的奖励基线。您可以在此处找到示例笔记本

引文 (BibTeX)

@misc{wang2020imitation,
  author = {Wang, Steven and Toyer, Sam and Gleave, Adam and Emmons, Scott},
  title = {The {\tt imitation} Library for Imitation Learning and Inverse Reinforcement Learning},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/HumanCompatibleAI/imitation}},
}

贡献

请参阅CONTRIBUTING.md

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

imitation- 0.3.1.tar.gz (917.8 kB 查看哈希)

已上传 source

内置分布

imitation-0.3.1-py3-none-any.whl (154.9 kB 查看哈希)

已上传 py3