现代奖励和模仿学习算法的实现。
项目描述
模仿学习基线实现
该项目旨在提供模仿和奖励学习算法的干净实现。目前,我们已经实现了行为克隆、DAgger(带有合成示例)、基于密度的奖励建模、最大因果熵逆强化学习、对抗逆强化学习、生成对抗模仿学习和来自人类偏好的深度强化学习。
在此处阅读文档。
安装:
安装 PyPI 版本
pip install imitation
安装最新提交
git clone http://github.com/HumanCompatibleAI/imitation
cd imitation
pip install -e .
可选的 Mujoco 依赖:
按照说明在此处安装 mujoco_py v1.5。
CLI 快速入门:
我们提供了几个 CLI 脚本作为imitation
. 这些使用Sacred进行配置和可复制性。
# Train PPO agent on pendulum and collect expert demonstrations. Tensorboard logs saved in quickstart/rl/
python -m imitation.scripts.train_rl with pendulum common.fast train.fast rl.fast fast common.log_dir=quickstart/rl/
# Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial gail with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl
# Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial airl with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl
提示:
- 从上面的命令中删除“快速”选项以允许训练运行完成。
python -m imitation.scripts.train_rl print_config
将列出神圣脚本选项。这些配置选项记录在每个脚本的文档字符串中。
有关如何配置 Sacred CLI 选项的更多信息,请参阅Sacred 文档。
Python 接口快速入门:
有关加载 CartPole-v1 演示并在该数据上训练 BC、GAIL 和 AIRL 模型的示例脚本,请参见examples/quickstart.py 。
密度奖励基线
我们还实施了基于密度的奖励基线。您可以在此处找到示例笔记本。
引文 (BibTeX)
@misc{wang2020imitation,
author = {Wang, Steven and Toyer, Sam and Gleave, Adam and Emmons, Scott},
title = {The {\tt imitation} Library for Imitation Learning and Inverse Reinforcement Learning},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/HumanCompatibleAI/imitation}},
}
贡献
请参阅CONTRIBUTING.md。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
imitation-
0.3.1.tar.gz (917.8 kB
查看哈希)
内置分布
imitation-0.3.1-py3-none-any.whl
(154.9 kB
查看哈希)