现代奖励和模仿学习算法的实现。

项目描述

模仿学习基线实现

该项目旨在提供模仿和奖励学习算法的干净实现。目前，我们已经实现了行为克隆、DAgger（带有合成示例）、基于密度的奖励建模、最大因果熵逆强化学习、对抗逆强化学习、生成对抗模仿学习和来自人类偏好的深度强化学习。

在此处阅读文档。

安装：

安装 PyPI 版本

pip install imitation

安装最新提交

git clone http://github.com/HumanCompatibleAI/imitation
cd imitation
pip install -e .

可选的 Mujoco 依赖：

按照说明在此处安装 mujoco_py v1.5。

CLI 快速入门：

我们提供了几个 CLI 脚本作为imitation. 这些使用Sacred进行配置和可复制性。

来自示例/quickstart.sh：

# Train PPO agent on pendulum and collect expert demonstrations. Tensorboard logs saved in quickstart/rl/
python -m imitation.scripts.train_rl with pendulum common.fast train.fast rl.fast fast common.log_dir=quickstart/rl/

# Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial gail with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl

# Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial airl with pendulum common.fast demonstrations.fast train.fast rl.fast fast demonstrations.rollout_path=quickstart/rl/rollouts/final.pkl

提示：

从上面的命令中删除“快速”选项以允许训练运行完成。
python -m imitation.scripts.train_rl print_config将列出神圣脚本选项。这些配置选项记录在每个脚本的文档字符串中。

有关如何配置 Sacred CLI 选项的更多信息，请参阅Sacred 文档。

Python 接口快速入门：

有关加载 CartPole-v1 演示并在该数据上训练 BC、GAIL 和 AIRL 模型的示例脚本，请参见examples/quickstart.py 。

密度奖励基线

我们还实施了基于密度的奖励基线。您可以在此处找到示例笔记本。

引文 (BibTeX)

@misc{wang2020imitation,
  author = {Wang, Steven and Toyer, Sam and Gleave, Adam and Emmons, Scott},
  title = {The {\tt imitation} Library for Imitation Learning and Inverse Reinforcement Learning},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/HumanCompatibleAI/imitation}},
}

贡献

请参阅CONTRIBUTING.md。

项目详情

发布历史发布通知| RSS订阅

这个版本

0.3.1

2022 年 7 月 29 日

0.2.0

2020 年 10 月 23 日

0.1.1

2020 年 9 月 1 日

0.1.1a0 预发布

2020 年 9 月 1 日

0.1.0

2020 年 5 月 9 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

imitation- 0.3.1.tar.gz (917.8 kB 查看哈希)

已上传 2022 年 7 月 29 日 source

内置分布

imitation-0.3.1-py3-none-any.whl (154.9 kB 查看哈希)

已上传 2022 年 7 月 29 日 py3

imitation-0.3.1.tar.gz 的哈希值

imitation-0.3.1.tar.gz 的哈希值
算法	哈希摘要
SHA256	`ad87abdd7b0d7f4e18c693ae77099e1f4442123ee7310374acd03d6d37f07887`
MD5	`32a4d8acdade9f390f594aaa3b1bdbc3`
布莱克2-256	`e27a0deb931e917c5edb656b7c292c82c2ad2e0883b4b50a00614670ad81b87f`

imitation-0.3.1-py3-none-any.whl 的哈希值

imitation-0.3.1-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`16d321159f57c46bb4425cf956fbaa4dd57080a965b5b125dba856598ec8f154`
MD5	`f4d6bb2aeef9a957ac1ef95315268e89`
布莱克2-256	`9cd4383886f92033183004f7e7bfb2fd97354a542fb88eef8dfd87276733bede`

imitation 0.3.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

模仿学习基线实现

安装：

安装 PyPI 版本

安装最新提交

可选的 Mujoco 依赖：

CLI 快速入门：

Python 接口快速入门：

密度奖励基线

引文 (BibTeX)

贡献

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

imitation 0.3.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

模仿学习基线实现

安装：

安装 PyPI 版本

安装最新提交

可选的 Mujoco 依赖：

CLI 快速入门：

Python 接口快速入门：

密度奖励基线

引文 (BibTeX)

贡献

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅