一文看懂半监督学习(Semi-supervised Learning)和自监督学习(Self-Supervised Learning)

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

前言

网络上很多关于此的文章，在这里进行一个梳理
参考：
https://zhuanlan.zhihu.com/p/33196506
https://zhuanlan.zhihu.com/p/139561294
https://blog.csdn.net/Cloris_Sue/article/details/105343762
https://blog.csdn.net/woshicver/article/details/105140970
https://blog.csdn.net/sdu_hao/article/details/104515917
https://mp.weixin.qq.com/s/Ekh0CqHuXGxKsy7sFropoA
https://zhuanlan.zhihu.com/p/96748604
https://zhuanlan.zhihu.com/p/138085660
https://zhuanlan.zhihu.com/p/125721565

1. 机器学习学习方法

机器学习中基本的学习方法有：监督学习（Supervised learning）、半监督学习（Semi-supervised learning）和无监督学习（Unsupervised learning）。他们最大的区别就是模型在训练时需要人工标注的标签信息，监督学习利用大量的标注数据来训练模型，使模型最终学习到输入和输出标签之间的相关性；半监督学习利用少量有标签的数据和大量无标签的数据来训练网络；而无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类。

使用监督学习时我们需要足够的标记数据。为了获得这些信息，需要手工标记数据(图像/文本)，这是一个既耗时又昂贵的过程。还有一些领域，比如医疗领域，获取足够的数据本身就是一个挑战。而在使用无监督学习的时候，例如自编码器，仅仅是做了维度的降低而已，并没有包含更多的语义特征，对下游任务并没有很大的帮助。

因此我们想要在不需要手工标记数据或者手工标注数据有限的的情况下，训练过程还能对任务本身有很大的帮助，可以包含更多的语义特征，自监督学习和半监督学习因此被提出。

2. 半监督学习（Semi-supervised learning）

2.1 什么是半监督学习

在许多ML的实际应用中，很容易找到海量的无类标签的样例，但需要使用特殊设备或经过昂贵且用时非常长的实验过程进行人工标记才能得到有类标签的样本，由此产生了极少量的有类标签的样本和过剩的无类标签的样例。因此，人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习，期望能对学习性能起到改进的作用，由此产生了半监督学习(Semi-supervised Learning)，如如图１所示。半监督学习(Semi-supervised Learning)避免了数据和资源的浪费，同时解决了监督学习(Supervised Learning)的模型泛化能力不强和无监督学习（Unsupervised learning）的模型不精确等问题。
在这里插入图片描述
在做半监督学习(Semi-supervised Learning)的时候通常的情景如下：

unlabeled data的数量要远大于label data
直推半监督学习
直推半监督学习(Semi-supervised Learning)只处理样本空间内给定的训练数据，利用训练数据中有类标签的样本和无类标签的样例进行训练，预测训练数据中无类标签的样例的类标签
归纳半监督学习
归纳半监督学习(Semi-supervised Learning)处理整个样本空间中所有给定和未知的样例，同时利用训练数据中有类标签的样本和无类标签的样例，以及未知的测试样例一起进行训练，不仅预测训练数据中无类标签的样例的类标签，更主要的是预测未知的测试样例的类标签。

归纳半监督学习假定训练数据中的未标记样本并非待测的数据，而直推半监督学习则假定学习过程中所考虑的未标记样本恰是待预测数据，学习的目的就是在这些未标记样本上获得最优泛化性能。
在这里插入图片描述

2.2为什么要进行半监督学习

收集数据很容易，但是收集到有标签的数据代价很昂贵
从人类的学习认知模式进行类比，可能半监督学习(Semi-supervised Learning)是一种更加科学的学习方法

2.3 半监督学习的三个基本假设

目前，在半监督学习中有三个常用的基本假设来建立预测样例和学习目标之间的关系，有以下三个：

（1）平滑假设(Smoothness Assumption)：位于稠密数据区域的两个距离很近的样例的类标签相似，也就是说，当两个样例被稠密数据区域中的边连接时，它们在很大的概率下有相同的类标签；相反地，当两个样例被稀疏数据区域分开时，它们的类标签趋于不同。

（2）聚类假设(Cluster Assumption)：当两个样例位于同一聚类簇时，它们在很大的概率下有相同的类标签。这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption)，即分类决策边界应该穿过稀疏数据区域，而避免将稠密数据区域的样例分到决策边界两侧。

聚类假设是指样本数据间的距离相互比较近时，则他们拥有相同的类别。根据该假设，分类边界就必须尽可能地通过数据较为稀疏的地方，以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下，学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据分布情况，从而指导学习算法对分类边界进行调整，使其尽量通过样本数据布局比较稀疏的区域。例如，Joachims提出的转导支持向量机算法，在训练过程中，算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记，使得分类边界在所有训练数据上最大化间隔，从而能够获得一个通过数据相对稀疏的区域，又尽可能正确划分所有有标记的样本数据的分类超平面。

（3）流形假设(Manifold Assumption)：将高维数据嵌入到低维流形中，当两个样例位于低维流形中的一个小局部邻域内时，它们具有相似的类标签。

流形假设的主要思想是同一个局部邻域内的样本数据具有相似的性质，因此其标记也应该是相似。这一假设体现了决策函数的局部平滑性。和聚类假设的主要不同是，聚类假设主要关注的是整体特性，流形假设主要考虑的是模型的局部特性。在该假设下，未标记的样本数据就能够让数据空间变得更加密集，从而有利于更加标准地分析局部区域的特征，也使得决策函数能够比较完满地进行数据拟合。流形假设有时候也可以直接应用于半监督学习算法中。例如，Zhu 等人利用高斯随机场和谐波函数进行半监督学习，首先利用训练样本数据建立一个图，图中每个结点就是代表一个样本，然后根据流形假设定义的决策函数的求得最优值，获得未标记样本数据的最优标记；Zhou 等人利用样本数据间的相似性建立图，然后让样本数据的标记信息不断通过图中的边的邻近样本传播，直到图模型达到全局稳定状态为止。

从本质上说，这三类假设是一致的,只是相互关注的重点不同。其中流行假设更具有普遍性。

2.4 怎样进行半监督学习

2.4.1 半监督学习分类

（１）半监督分类（Semi-Supervised Classification）

在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，弥补有类标签的样本不足的缺陷，其中类标签yi取有限离散值yi∈{c1,c2,···,cc},cj∈N。

（２）半监督回归（Semi-Supervised Regression）

在无输出的输入的帮助下训练有输出的输入，获得比只用有输出的输入训练得到的回归器性能更好的回归器，其中输出yi 取连续值 yi∈Ｒ。

（３）半监督聚类（Semi-Supervised Clustering）

在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇，提高聚类方法的精度。

（４）半监督降维（Semi-Supervised Dimensionality Reduction）

在有类标签的样本的信息帮助下找到高维输入数据的低维结构，同时保持原始高维数据和成对约束（Pair-Wise Constraints）的结构不变，即在高维空间中满足正约束（Must-Link Constraints）的样例在低维空间中相距很近，在高维空间中满足负约束（Cannot-Link Constraints）的样例在低维空间中距离很远。

在这里插入图片描述

2.4.1 半监督学习方法

一般，半监督学习算法可分为：self-training（自训练算法）、Graph-based Semi-supervised Learning（基于图的半监督算法）、Semi-supervised supported vector machine（半监督支持向量机，S3VM）。简单介绍如下：

1.简单自训练（simple self-training）：用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类，这样就会产生伪标签（pseudo label）或软标签（soft label），挑选你认为分类正确的无标签样本（此处应该有一个挑选准则），把选出来的无标签样本用来训练分类器。
2.协同训练（co-training）：其实也是 self-training 的一种，但其思想是好的。假设每个数据可以从不同的角度（view）进行分类，不同角度可以训练出不同的分类器，然后用这些从不同角度训练出来的分类器对无标签样本进行分类，再选出认为可信的无标签样本加入训练集中。由于这些分类器从不同角度训练出来的，可以形成一种互补，而提高分类精度；就如同从不同角度可以更好地理解事物一样。
3.半监督字典学习：其实也是 self-training 的一种，先是用有标签数据作为字典，对无标签数据进行分类，挑选出你认为分类正确的无标签样本，加入字典中（此时的字典就变成了半监督字典了）
4.标签传播算法（Label Propagation Algorithm）：是一种基于图的半监督算法，通过构造图结构（数据点为顶点，点之间的相似性为边）来寻找训练数据中有标签数据和无标签数据的关系。是的，只是训练数据中，这是一种直推式的半监督算法，即只对训练集中的无标签数据进行分类，这其实感觉很像一个有监督分类算法…，但其实并不是，因为其标签传播的过程，会流经无标签数据，即有些无标签数据的标签的信息，是从另一些无标签数据中流过来的，这就用到了无标签数据之间的联系
5.半监督支持向量机：监督支持向量机是利用了结构风险最小化来分类的，半监督支持向量机还用上了无标签数据的空间分布信息，即决策超平面应该与无标签数据的分布一致（应该经过无标签数据密度低的地方）（这其实是一种假设，不满足的话这种无标签数据的空间分布信息会误导决策超平面，导致性能比只用有标签数据时还差）

其实，半监督学习的方法大都建立在对数据的某种假设上，只有满足这些假设(也就是上面提到的半监督学习的三个基本假设)，半监督算法才能有性能的保证，这也是限制了半监督学习应用的一大障碍。

2.4.2 半监督深度学习（主要是自训练算法）

正题——半监督深度学习，深度学习需要用到大量有标签数据，即使在大数据时代，干净能用的有标签数据也是不多的，由此引发深度学习与半监督学习的结合。

如果要给半监督深度学习下个定义，大概就是，在有标签数据+无标签数据混合成的训练数据中使用的深度学习算法

半监督深度学习算法个人总结为三类：

1.无标签数据预训练网络后有标签数据微调（fine-tune）；
2.有标签数据训练网络，利用从网络中得到的深度特征来做半监督算法；
3.让网络 work in semi-supervised fashion。

1.无标签数据预训练，有标签数据微调(VAE)
对于神经网络来说，一个好的初始化可以使得结果更稳定，迭代次数更少。因此如何利用无标签数据让网络有一个好的初始化就成为一个研究点了。

目前我见过的初始化方式有两种：无监督预训练，和伪有监督预训练

无监督预训练：一是用所有数据逐层重构预训练，对网络的每一层，都做重构自编码，得到参数后用有标签数据微调；
伪有监督预训练：二是用所有数据训练重构自编码网络，然后把自编码网络的参数，作为初始参数，用有标签数据微调。

2.利用从网络得到的深度特征来做半监督算法
神经网络不是需要有标签数据吗？我给你造一些有标签数据出来！这就是第二类思想，相当于一种间接的 self-training 。一般流程是：

先用有标签数据训练网络（此时网络一般过拟合…），从该网络中提取所有数据的特征，以这些特征来用某种分类算法对无标签数据进行分类，挑选你认为分类正确的无标签数据加入到训练集，再训练网络；如此循环。

由于网络得到新的数据（挑选出来分类后的无标签数据）会更新提升，使得后续提出来的特征更好，后面对无标签数据分类就更精确，挑选后加入到训练集中又继续提升网络，感觉想法很好但总有哪里不对…orz

个人猜测这个想法不能很好地 work 的原因可能是噪声，你挑选加入到训练无标签数据一般都带有标签噪声（就是某些无标签数据被分类错误），这种噪声会误导网络且被网络学习记忆。

3.让网络 work in semi-supervised fashion–重点重点！！！

前面的1.和2.虽然是都用了有标签数据和无标签数据，但就神经网络本身而言，其实还是运行在一种有监督的方式上。

https://zhuanlan.zhihu.com/p/138085660介绍了一系列work in Semi-supervised fashion的paper。这里介绍最初的一篇

论文链接
github：https://github.com/iBelieveCJM/pseudo_label-pytorch

这是一篇发表在 ICML 2013 的文章，是一个相当简单的让网络 work in semi-supervised fashion 的方法。就是把网络对无标签数据的预测，作为无标签数据的标签（即 Pseudo label），用来对网络进行训练，其思想就是一种简单自训练。但方法虽然简单，但是效果很好，比单纯用有标签数据有不少的提升

网络使用的代价函数如下：在这里插入图片描述
代价函数的前面是有标签数据的代价，后面的无标签数据的代价，在无标签数据的代价中， $y^{‘}$ 是无标签数据的 pseudo label，是直接取网络对无标签数据的预测的最大值为标签。

虽然思想简单，但是还是有些东西需要注意的，就是这个 $\alpha(t)$ ，其决定着无标签数据的代价在网络更新的作用，选择合适的 $\alpha(t)$ 很重要，太大性能退化，太小提升有限。在网络初始时，网络的预测时不太准确的，因此生成的 pseudo label 的准确性也不高。在初始训练时， $\alpha(t)$ 要设为 0，然后再慢慢增加，论文中给出其增长函数。

感觉这种无标签数据代价达到一种正则化的效果，其减少了网络在有限有标签数据下的过拟合，使得网络泛化地更好。

2.5半监督学习的训练目标

最初一直不懂半监督学习的训练结果，在看了一些文章和源码后终于有了一些感念，在这里说一下半监督学习的训练目标

拿最简单的图片分类任务进行举例，最初在有监督学习的背景下，所有人考虑的是如何改变网络结构可以使检测结果更加准确，因此产生了一些列的基础网络如：Lenet，Alexnet，vgg，resnet等等。之后考虑到半监督学习的任务目标，需要改变除了网络结构模型之外的数据处理架构(数据增强等任务)，构造新的损失函数，网络模型外的整体架构等方面，在保持原有网络模型不变的基础上充分利用label data和unlabel data使最终的性能尽可能贴近有监督学习的性能指标

3. 自监督学习（Self-supervised Learning）

3.1 什么是自监督学习

3.1.1自监督学习与监督学习、非监督学习的关系

样本特征在学习过程中至关重要。在简单的数据挖掘任务中，重要的数据特征是人工设计的。这些功能通常称为Hand-crafted features。在计算机视觉领域，这种类型的表示通常要求我们设计合适的函数以从图像或视频中提取所需的信息。但是，这些功能通常来自人类有关视觉任务中关键信息的经验，这导致手工制作的功能无法表示高级语义信息。例如，在早期工作中提出了各种视觉描述符，例如SIFT算子，HOG算子等等来表示有关对象边缘，纹理等的视觉信息。此外，由于设计函数的复杂度限制，这种类型的表示能力通常相对较低，并且提出新的hand-crafted features并非易事。

总而言之，hand-crafted features在早期视觉任务中取得了一些成功，但是随着问题的复杂性增加，它逐渐无法满足我们的需求。随着卷积神经网络的普及以及数据大小的指数增长，在完全监督的任务中，自动提取的表示形式逐渐取代了效率低下的hand-crafted features。在完全监督模型中，通过反向传播解决了以神经网络和监督损失函数为代表的全局优化问题。大量带注释的图像和视频数据集以及日益复杂的神经网络结构使诸如图像分类和对象检测之类的完全受监督的任务成为可能。之后，经过训练的模型的中间特征图通常包含与特定任务相关的语义有意义的信息，这些信息可以传递给类似的问题。

但是，手动数据注释是监督学习中必不可少的步骤，这是耗时，费力且有噪声的。与有监督的方法不同，无监督的方法不依赖于人类注释，并且通常集中在数据良好表示（例如平滑度，稀疏性和分解）的预设先验上。无监督方法的经典类型是聚类方法，例如高斯混合模型，它将数据集分解为多个高斯分布式子数据集。然而，非监督学习学习由于预设先验的一般性较差而不太值得信赖，在某些数据集（例如非高斯子数据集）上选择将数据拟合为高斯分布可能是完全错误的。

自我监督方法可以看作是一种具有监督形式的特殊形式的非监督学习方法

3.1.2 什么是自监督学习

自监督学习主要是利用辅助任务（pretext）从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

所以对于自监督学习来说，存在三个挑战：

对于大量的无标签数据，如何进行表征学习？
从数据的本身出发，如何设计有效的辅助任务 pretext？
对于自监督学习到的表征，如何来评测它的有效性？

对于第三点，评测自监督学习的能力，主要是通过 Pretrain-Fintune 的模式。我们首先回顾下监督学习中的 Pretrain – Finetune 流程：我们首先从大量的有标签数据上进行训练，得到预训练的模型，然后对于新的下游任务（Downstream task），我们将学习到的参数进行迁移，在新的有标签任务上进行「微调」，从而得到一个能适应新任务的网络。而自监督的 Pretrain – Finetune 流程：首先从大量的无标签数据中通过 pretext 来训练网络，得到预训练的模型，然后对于新的下游任务，和监督学习一样，迁移学习到的参数后微调即可。所以自监督学习的能力主要由下游任务的性能来体现。

在这里插入图片描述

3.2 为什么要自监督学习

机器学习中基本的学习方法有：监督学习（supervised learning）、半监督学习（semi-supervised learning）和无监督学习（unsupervised learning）。他们最大的区别就是模型在训练时需要人工标注的标签信息，监督学习利用大量的标注数据来训练模型，使模型最终学习到输入和输出标签之间的相关性；半监督学习利用少量有标签的数据和大量无标签的数据来训练网络；而无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类。

因此我们想要在不需要手工标记数据的情况下，训练过程还能对任务本身有很大的帮助，可以包含更多的语义特征，自监督学习因此被提出。

3.3 怎样进行自监督学习

3.3.1 自监督学习的主要方法

自监督学习的方法主要可以分为 3 类：

基于上下文（Context based）
基于时序（Temporal Based）
基于对比（Contrastive Based）

1. 基于上下文（Context Based）
基于数据本身的上下文信息，我们其实可以构造很多任务，比如在 NLP 领域中最重要的算法 Word2vec 。Word2vec 主要是利用语句的顺序，例如 CBOW 通过前后的词来预测中间的词，而 Skip-Gram 通过中间的词来预测前后的词。
在这里插入图片描述
而在图像中，研究人员通过一种名为 Jigsaw（拼图）[7] 的方式来构造辅助任务。我们可以将一张图分成 9 个部分，然后通过预测这几个部分的相对位置来产生损失。比如我们输入这张图中的小猫的眼睛和右耳朵，期待让模型学习到猫的右耳朵是在脸部的右上方的，如果模型能很好的完成这个任务，那么我们就可以认为模型学习到的表征是具有语义信息的。
在这里插入图片描述
后续的工作[8]人们又拓展了这种拼图的方式，设计了更加复杂的，或者说更难的任务。首先我们依然将图片分为 9 块，我们预先定义好 64 种排序方式。模型输入任意一种被打乱的序列，期待能够学习到这种序列的顺序属于哪个类，和上个工作相比，这个模型需要学习到更多的相对位置信息。这个工作带来的启发就是使用更强的监督信息，或者说辅助任务越难，最后的性能越好。
在这里插入图片描述
除了这种拼图的模式，还有一种是抠图[9]。想法其实也很简单粗暴，就是我们随机的将图片中的一部分删掉，然后利用剩余的部分来预测扣掉的部分，只有模型真正读懂了这张图所代表的含义，才能有效的进行补全。这个工作表明自监督学习任务不仅仅可以做表征学习，还能同时完成一些神奇的任务。

而对于这种抠图的方式，其实和 nlp 中的 BERT [10] 的 MASK LM 训练方式有异曲同工之妙，BERT 在训练时也可以是看做随机扣掉一些词，然后来预测扣掉的词，从而让模型读懂句子。
在这里插入图片描述
还有一种思路是通过图片的颜色信息[11]，比如给模型输入图像的灰度图，来预测图片的色彩。只有模型可以理解图片中的语义信息才能得知哪些部分应该上怎样的颜色，比如天空是蓝色的，草地是绿色的，只有模型从海量的数据中学习到了这些语义概念，才能得知物体的具体颜色信息。同时这个模型在训练结束后就可以做这种图片上色的任务。
在这里插入图片描述
这种基于预测颜色的生成模型带给了人们新的启发，其实这种灰度图和 ab 域的信息我们可以当做是一张图片的解耦表达，所以只要是解耦的特征，我们都可以通过这种方式互相监督的学习表征，著名的 Split-Brain Autoencoders [12] 就在做这样一件事情。对于原始数据，首先分成两部分，然后通过一部分的信息来预测另一部分，最后再合成完成的数据。和传统编码器不同的是，这种预测的方式可以促使模型真正读懂数据的语义信息才能够实现，所以相当于间接地约束编码器不单单靠 pixel-wise 层面来训练，而要同时考虑更多的语义信息。
在这里插入图片描述
最后我们要介绍的是根据类似数据增广的方式来寻找自监督上下文。ICLR 2018 [13]的工作是给定一张输入的图片，我们对其进行不同角度的旋转，模型的目的是预测该图片的旋转角度。这种朴素的想法最后带来的增益竟然是非常巨大的，所以数据增强对于自监督学习也是非常有益处的，我个人的想法是数据增强不仅带来了更多的数据，还增加了预训练模型的鲁棒性。
在这里插入图片描述
自监督学习在预训练模型中的成功让研究人员觉得非常兴奋，同时也激发了更多的灵感。我们之前介绍的模型都是在专注如何寻找自监督信息，而自监督学习一定要脱离下游的具体任务吗？答案是否定的，越来越多的工作开始思考自监督学习和具体任务紧密结合的方法(Task Related Self-Supervised Learning)。
在这里插入图片描述
Lee, Hankook et al [14]探索了在多任务学习中增加自监督学习的可能，他们将普通的分类任务中嵌入了旋转预测任务。除了简单的多任务学习，也可以设计联合学习策略，直接预测两种监督信息。同样的想法也被用到了小样本学习[15]中，一个分支进行传统的小样本分类，另一个分支来进行自监督旋转预测，虽然这篇文章的想法和设计不是很亮眼，但提升还是比较明显的。
在这里插入图片描述
而自监督和半监督学习[16]也可以进行结合，对于无标记的数据进行自监督学习（旋转预测），和对于有标记数据，在进行自监督学习的同时利用联合训练的想法进行有监督学习。通过对 imagenet 的半监督划分，利用 10% 或者 1% 的数据进行实验，最后分析了一些超参数对于最终性能的影响。
在这里插入图片描述
这两篇文章最后都中了 ICCV 2019，说明目前来说审稿人对于这类任务相关的自监督模型都是比较感兴趣的。

2. 基于时序（Temporal Based）(略)
https://mp.weixin.qq.com/s/Ekh0CqHuXGxKsy7sFropoA

3. 基于对比（Contrastive Based）
第三类自监督学习的方法是基于对比约束，它通过学习对两个事物的相似或不相似进行编码来构建表征，这类方法的性能目前来说是非常强的，从最近的热度就可以看出，很多大牛的精力都放在这个方向上面。关于这个方向的方法，[22] 总结的比较好。这里我们再简单的阐述一下，加上一些我个人的看法。

其实我们第二部分所介绍的基于时序的方法已经涉及到了这种基于对比的约束，通过构建正样本（positive）和负样本（negative），然后度量正负样本的距离来实现自监督学习。核心思想样本和正样本之间的距离远远大于样本和负样本之间的距离：

在这里插入图片描述
这里的 x 通常也称为「anchor」数据，为了优化 anchor 数据和其正负样本的关系，我们可以使用点积的方式构造距离函数，然后构造一个 softmax 分类器，以正确分类正样本和负样本。这应该鼓励相似性度量函数（点积）将较大的值分配给正例，将较小的值分配给负例：
通常这个损失也被称为 InfoNCE （多么炫酷的名字啊），后面的所有工作也基本是围绕这个损失进行的。
在这里插入图片描述
我们首先介绍 ICLR 2019 的 DIM [23]，DIM 的具体思想是对于隐层的表达，我们可以拥有全局的特征（编码器最终的输出）和局部特征（编码器中间层的特征），模型需要分类全局特征和局部特征是否来自同一图像。所以这里 x 是来自一幅图像的全局特征，正样本是该图像的局部特征，而负样本是其他图像的局部特征。这个工作的开创性很强，已经被应用到了其他领域，比如 graph [24]。
在这里插入图片描述
CPC 同样是一个基于对比约束的自监督框架，主要是可以应用于能够以有序序列表示的任何形式的数据:文本、语音、视频、甚至图像（图像可以被视为像素或块的序列，后面作者也给出了具体的想法）。CPC 主要是利用自回归的想法，对相隔多个时间步长的数据点之间共享的信息进行编码来学习表示，这个表示 c_t 可以代表融合了过去的信息，而正样本就是这段序列 t 时刻后的输入，负样本是从其他序列中随机采样出的样本。CPC的主要思想就是基于过去的信息预测的未来数据，通过采样的方式进行训练。在这里插入图片描述
所以基于对比约束的自监督方法主要围绕如何选取正负样本， @慕容腹黑大佬提出了利用多模态（多视角）的信息来构造样本[26] ，一个样本的多个模态为正样本，其他样本的模态为负样本。我认为这个工作还是很有启发性的，很遗憾 ICCV2019 没有中，真心希望这篇文章能够有一个好的归宿。
在这里插入图片描述
对于具体的实现上，因为存在大量的样本，如何存取和高效的计算损失是急需解决的。研究人员提出了memory bank [27]的概念，也就是说我们把之前模型产生样本特征全部存起来，当前计算损失的时候直接拿来用就可以了，每次模型更新完后将当前的特征重新更新到 memory bank 中，以便下一次使用。这个工作的缺点就在于每次需要将所有样本的特征全部存起来。后续 kaiming 大神提出的 Moco[28]，主要的贡献是 Momentum Update、 shuffleBN 等技术点来优化这个过程。关于 Moco 知乎上已经有了很多的解释了，推荐大家阅读 [2]，这里我们就不展开介绍了。
在这里插入图片描述
最近 hinton 组又放出了 SimCLR[29]，这个工作主要是对于一个输入的样本，进行不同的数据增广方式，对于同一个样本的不同增广是正样本，对于不同样本的增广是负样本。整个过程比之前kaiming提出的动量对比（MoCo）更加的简单，同时省去了数据存储队列。这个工作的创新主要有两个：

在表征层和最后的损失层增加了一个非线性映射可以增加性能
数据增广对于自监督学习是有益的，不同数据增广方式的结合比单一增广更好。同时作者公布了非常多的实验经验，比如自监督学习需要更大的 batch 和更长的训练时间。

3.3.2 Discussion

通过阅读这些经典工作，我自己的思考主要如下：

找到合适的辅助任务（pretext）对于自监督学习是最需要解决的问题。
数据和资源越多，自监督预训练的效果会更好（Bert, MoCo, SimCLR）。
自监督直接和具体任务的结合（Task Related Self-Supervised Learning）是个可探索的方向，已经在很多任务中初露头角，也比较符合审稿人的口味。

4.Reference

[1] lawtomated.com/supervis

[2] zhuanlan.zhihu.com/p/10

[3] zhuanlan.zhihu.com/p/10

[4] zhuanlan.zhihu.com/p/30

[5] zhuanlan.zhihu.com/p/10

[6] lilianweng.github.io/li

[7] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Unsupervised Visual Representation Learning by Context Prediction. In ICCV 2015

[8] Noroozi, M., & Favaro, P. Unsupervised learning of visual representations by solving jigsaw puzzles. In ECCV 2016.

[9] Deepak Pathak et al. Context Encoders: Feature Learning by Inpainting. In CVPR 2016.

[10] Devlin, Jacob et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL-HLT (2019).

[11] Zhang, R., Isola, P., & Efros, A. A. Colorful image colorization. In ECCV 2016.

[12] Zhang, R., Isola, P., & Efros, A. A. Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction. In CVPR 2017

[13] Gidaris, Spyros et al. “Unsupervised Representation Learning by Predicting Image Rotations.” In ICLR 2018

[14] Lee, Hankook et al. “Rethinking Data Augmentation: Self-Supervision and Self-Distillation.” ArXiv abs/1910.05872 (2019): n. pag.

[15] Gidaris, Spyros et al. “Boosting Few-Shot Visual Learning with Self-Supervision.” ICCV 2019

[16] Zhai, Xiaohua et al. “SL: Self-Supervised Semi-Supervised Learning.” ” ICCV 2019

[17] Sermanet, Pierre et al. “Time-Contrastive Networks: Self-Supervised Learning from Video.” 2018 IEEE International Conference on Robotics and Automation (ICRA) (2017): 1134-1141.

[18] Wang, Xiaolong and Abhinav Gupta. “Unsupervised Learning of Visual Representations Using Videos.” 2015 IEEE International Conference on Computer Vision (ICCV) (2015): 2794-2802.

[19] Misra, I., Zitnick, C. L., & Hebert, M. Shuffle and learn: unsupervised learning using temporal order verification. In ECCV 2016.

[20] Wu, Jiawei et al. “Self-Supervised Dialogue Learning.” ACL (2019).

[21] cloud.tencent.com/devel

[22] ankeshanand.com/blog/20

[23] Hjelm, R. Devon et al. “Learning deep representations by mutual information estimation and maximization.” . ICLR 2019

[24] Velickovic, Petar et al. “Deep Graph Infomax.” ArXiv abs/1809.10341 (2018): n. pag.

[25] Oord, Aäron van den et al. “Representation Learning with Contrastive Predictive Coding.” ArXiv abs/1807.03748 (2018): n. pag.

[26] Tian, Yonglong et al. “Contrastive Multiview Coding.” ArXiv abs/1906.05849 (2019): n. pag.

[27] Wu, Zhirong et al. “Unsupervised Feature Learning via Non-parametric Instance Discrimination.” CVPR 2018

[28] He, Kaiming et al. “Momentum Contrast for Unsupervised Visual Representation Learning.” ArXiv abs/1911.05722 (2019): n. pag.

[29] Chen, Ting et al. “A Simple Framework for Contrastive Learning of Visual Representations.” ArXiv abs/2002.05709 (2020): n. pag.

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/194102.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...