8. 强化学习之——模仿学习

8. 强化学习之——模仿学习课程大纲注:本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2感谢周老师:)…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

目录

课程大纲

Introduction & Behavioral Cloning

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

Inverse RL & GAIL

Inverse RL

GAIL

Connection between IRL & GAIL

改进模仿学习的性能

模仿学习与强化学习结合

(1)最简单直接的结合:预训练和调整 Pretrain and Finetune【应用十分广泛】

(2)IL 结合 Off-Policy RL:算是对 Pretrain and Finetune 的改进

(3)另一种结合方式:把 IL 作为一项辅助的损失函数

一个有趣的 Case Study—— motion imitation

IL 本身存在的问题

总结


课程大纲

模仿学习介绍

行为克隆 BC 和 DAGGER 算法

逆强化学习 IRL 和 生成对抗模仿学习GAIL

改进模仿学习的性能

把模仿学习和强化学习结合

Introduction & Behavioral Cloning

从最简单的行为克隆方法开始介绍:比较简单的思想就是把策略的学习当做有监督的学习来进行,例如学习出来策略网络

8. 强化学习之——模仿学习

这样直接把它当做一个有监督的问题来解决的话其实是有问题的:数据的分布假设相矛盾 —— 有监督学习假设数据是 IID 的,但是一个时序的决策过程采集到的数据是有关联的;而且如果模型进入到 off-course 状态(训练时没见到过的状态)时不知道怎么回来

8. 强化学习之——模仿学习

一个可能的解决方案就是:不断添加数据,变成 online 的过程

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

DAGGER 的缺点在于第三步实在是太耗费时间了,可以改进 DAGGER 吗?第三步是不是可以用其他的算法来打标签呢?

改进DAGGER:

8. 强化学习之——模仿学习

Inverse RL & GAIL

Inverse RL

IRL 与 RL 的对比:

8. 强化学习之——模仿学习

IRL的举例:

8. 强化学习之——模仿学习

GAIL

类似于 IRL,GAN 学习了一个目标函数用于生成模型,GAIL 模仿了 GAN 的思想

8. 强化学习之——模仿学习

Connection between IRL & GAIL

8. 强化学习之——模仿学习

改进模仿学习的性能

怎样提升我们的策略模型?

问题一:Multimodal behavior

8. 强化学习之——模仿学习

解决方案:

①输出一个多高斯模型,也就是多峰的叠加的形式

8. 强化学习之——模仿学习

②隐变量模型

③自回归离散

问题二:Non-Markovian behavior

8. 强化学习之——模仿学习

解决方案:

①建模整个观测历史,比如说 LSTM

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

用 LSTM 和 示教数据 完成机械臂抓取的例子【AAAI 2018】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

那么其实在机器人领域,如何 scale up 数据一直是一个很大的问题

8. 强化学习之——模仿学习

斯坦福的李飞飞组提出的 crowdsourcing 的方法来采集很多很多很多人的示教数据,RoboTurk项目出了一种解决方案

模仿学习其实还有一些问题

①人为提供数据,这个数据本身就有限

②人有时候不能很好提供数据,例如对无人机示教、对复杂机器人的示教

③人本身是可以在环境中自由探索的,是否可以借鉴这一点呢?

所以下面我们就想把模仿学习与强化学习结合起来

模仿学习与强化学习结合

模仿学习与强化学习的各自的特点对比

8. 强化学习之——模仿学习

怎么把两者结合起来,既有 Demonstration 又有 Rewards?

(1)最简单直接的结合:预训练和调整 Pretrain and Finetune【应用十分广泛】

也就是说用 Demonstration 预训练一个 Policy(解决 exploration 的问题),然后用 RL 去 improve policy 和解决那些 off-policy 的状态,最终达到超过示教者表现的过程

Pretrain and Finetune 的流程如下: 

8. 强化学习之——模仿学习

这里是之前的 DAGGER 算法,可以和 Pretrain and Finetune 进行对比:

8. 强化学习之——模仿学习

Pretrain and Finetune 的应用:

①应用于 AlphaGo【Nature 2016 Silver】

8. 强化学习之——模仿学习

②应用于 Starcraft2【DeepMind工作】

8. 强化学习之——模仿学习

Pretrain and Finetune 的问题:

8. 强化学习之——模仿学习

①在第三步的时候我们之前获得的比较好的 Policy 用强化学习来训练的时候,可能会面临分布不一致的问题

②最开始的 experience 可能是很糟糕的,这样在进行训练时会摧毁 policy network

解决Pretrain and Finetune 问题的方案:考虑怎样把 Demonstration 一直保留下来 —— Off-Policy RL

 

(2)IL 结合 Off-Policy RL:算是对 Pretrain and Finetune 的改进

off-policy RL 可以用任意的 experience data ,例如对Q-Learning来说,只要把它们放到 replay buffer 里面就可以一直用

8. 强化学习之——模仿学习

①形式一:Policy Gradient with Demonstration

8. 强化学习之——模仿学习

应用举例:

8. 强化学习之——模仿学习

②形式二:Q-Learning with Demonstration

8. 强化学习之——模仿学习

(3)另一种结合方式:把 IL 作为一项辅助的损失函数

8. 强化学习之——模仿学习

    优化 RL的期望回报 + IL的极大似然

    应用举例:【2017年】

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

一个有趣的 Case Study—— motion imitation

可以在实际的人的关节贴传感器采数据,甚至还可以从视频里通过姿态估计来采数据训练agent

详细内容去听周老师的课吧~

IL 本身存在的问题

(1)怎样去收集 Demonstration 

         ① Crowdsourcing

         ② Guided policy search or optimal control for trajectory optimization

(2)怎样优化 Policy 使得 Agent 能处理 off-course 的状况

         ① 把这些 off-course 的状况也建模进来,打好标签

         ② Use off-policy learning with the already collected samples

         ③ 结合 IL 和 RL 

总结

8. 强化学习之——模仿学习

8. 强化学习之——模仿学习

 

注:本文所有内容源自于B站周博磊老师更新完成的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/192003.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • linux常用命令杀死进程_kill杀死进程命令

    linux常用命令杀死进程_kill杀死进程命令在做项目的时候经常会出现程序死机、锁死、无响应等情况,这时候就需要找到程序相应的进程将其杀掉即可。步骤如下:1.定位进程top命令:可以实时动态地查看系统的整体运行情况,是一个综合了多方信息监测系统性能和运行信息的实用工具。通过top命令所提供的互动式界面,用热键可以管理。输入top后可以看到如下的界面,实时显示进程情况。ps命令:processstatus的简称,用于报告当…

  • 浅谈欧拉函数[通俗易懂]

    浅谈欧拉函数[通俗易懂]前言欧拉函数听起来很高大上,但其实非常简单,也是NOIP里的一个基础知识,希望大家看完我的博客能有所理解。什么是欧拉函数欧拉函数是小于x的正整数中与x互质的数的个数,一般用φ(x)表示。特殊的,φ(1)=1。如何计算欧拉函数通式:φ(x)=x∏ni=1(1−1pi)∏i=1n(1−1pi)\prod_{i=1}^n{(1-\frac{1}{p_i})}φ(1)=1其…

  • linux使用客户端连接redis,使用redis客户端连接windows和linux下的redis并解决无法连接redis的问题…[通俗易懂]

    linux使用客户端连接redis,使用redis客户端连接windows和linux下的redis并解决无法连接redis的问题…[通俗易懂]搭建环境:linux是centos7.4(请注意centos7以下版本的防火墙跟centos7以上的不同,使用redis客户端连接redis时会有区别,建议使用centos7以上版本)一、下载redis客户端二、连接windows下的redis服务器1、确保redis服务器是启动状态2、创建连接打开如下页面:3、使用命令窗口右键点击localhost,选择Console正常使用各种redis命令三…

  • xamarin android listview的用法

    xamarin android listview的用法listview也许是用的非常频繁的一个控件之一,下面我写一个xamarin的listview栗子,大家尝一尝xamarinandroid开发的乐趣。原谅我的大小写吧.listview绑定自定义的BaseAdapter先来看一下最终实现的效果图:News.cs和NewAdapter.csnamespaceDrawerLayout.Adapter{public…

  • java 优先级队列_JAVA 队列

    java 优先级队列_JAVA 队列优先级队列是比栈和队列更专用的结构,在多数情况下都非常有用。优先级队列像普通队列一样,有一个队头和队尾,并且也是从队头移除数据。优先级队列中,数据按关键词有序排列,插入新数据的时候,会自动插入到合适的位置保证队列有序。举个例子来说,一组整型数,如果使用优先级队列的话,不管队列之前放入的数据如何,后面添加进去的数据总会被按照升序或者降序排列,当然这个只是优先级队列最基本的使用,在实际生产中可能有…

  • Ubuntu虚拟显示器_vmware安装ubuntu屏幕太小

    Ubuntu虚拟显示器_vmware安装ubuntu屏幕太小Ubuntu20.04虚拟显示器1080P配置一、背景二、配置方法1)安装软件2)添加配置文件3)重启三、效果Reference一、背景通过VNC远程连接Ubuntu系统电脑的图形化桌面时,如该电脑未连接显示器,需配置虚拟显示器。二、配置方法1)安装软件通过终端安装虚拟显示器软件。$sudoapt-getinstallxserver-xorg-core-hwe-18.04$sudoapt-getinstallxserver-xorg-video-dummy

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号