模仿学习-技术综述[通俗易懂]

模仿学习–技术综述[通俗易懂]

全栈程序员-用户IM • 2022年9月16日下午10:36 • 未分类

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

概念：
1）不同于监督学习，强化学习被用于处理复杂的决策任务，但是决策空间巨大，强化学习需要试错，样本的复杂程度较高（sample complexity），限制了强化学习的应用场景；
2）模仿学习，直接从专家样本中进行学习；由于比较高质量的决策行为数据，模仿学习被认为是可以降低样本复杂度的手段之一。
3）难点：决策行为的rewarding难以定义，高质量的决策示例可以确定合理的奖励设定方法。
局限性：
2.1 数据的可获得性
影子模式可以有效的解决数据的可获得性，但是其中的数据也包括了不值得提倡的司机行为；

2.2 模型的有效性
端到端的特性：
1）可解释性较差；可解释性上刚刚有所进展（可解释机器学习？-文档）
2）难以在中间过程中，接收信息和指令；

2.3 预测能力
不能教Autopilot系统处理无法轻易预测的危险情景。比如，老司机看到飘在前方的塑料袋时会不转向，但自动驾驶系统会；存在识别训练数据相关性问题，它不能通过纯粹观察相关性来建构因果模型，并且无法在模拟中主动测试反事实。
应用方式：
1）基于规则的规划、控制模块，还是基础的功能实现方案；

2)强化学习、模仿学习，作为规划、控制模块的备份方案，在极端场景下-conner case 或规则无法覆盖的场景，能够有效的实现相应功能模块。
论文及学习：
1）https://arxiv.org/abs/1812.03079v1；
学习：https://blog.csdn.net/Nick_cloud/article/details/109701213；https://zhuanlan.zhihu.com/p/57275593
2）https://arxiv.org/abs/2111.08575v1