siamfc模型训练_卷积神经网络分类

本论文提出一种新的全卷积孪生网络作为基本的跟踪算法，这个网络在ILSVRC15的目标跟踪视频数据集上进行端到端的训练。我们的跟踪器在帧率上超过了实时性要求，尽管它非常简单，但在多个benchmark上达到最优的性能。

最近很多研究通过使用预训练模型来解决上述问题。这些方法中，要么使用网络内部某一层作为特征的shallow方法（如相关滤波）；要么是使用SGD方法来对多层网络进行微调。然而shallow的方法没有充分利用端到端学习的益处，而使用SGD微调虽然能到达时最优结果，但却难以达到实时性的要求。
我们提出另一种替代性的方法。这个方法在初始离线阶段把深度卷积网络看成一个更通用的相似性学习问题，然后在跟踪时对这个问题进行在线的简单估计。这篇论文的关键贡献就在于证明这个方法在benchmark上可以达到非常有竞争性的性能，并且运行时的帧率远超实时性的要求。具体点讲，我们训练了一个孪生网络在一个较大的搜索区域搜索样本图片。本文另一个贡献在于，新的孪生网络结构是一个关于搜索区域的全卷积网络：密集高效的滑动窗口估计可通过计算两个输入的互相关性并插值得到。

跟踪任意目标的学习可看成是相似性问题的学习。我们提出学习一个函数 $f (x, z)$ 来比较样本图像 $z$ 和搜索图像 $x$ 的相似性。如果两个图像描述的是同一个目标，则返回高分，否则返回低分。
我们用深度神经网络来模拟函数 $f$ ，而深度卷积网络中相似性学习最典型的就是孪生结构。孪生网络对两个输入 $z$ 和 $x$ 进行相同的变换 $\varphi$ ，然后将得到的输出送入函数 $g$ ，最后得到相似性度量函数为： $f(z,x)=g(\varphi(z),\varphi(x)) \tag{1}$ 1.函数 $g$ 是一个简单的距离或相似性度量
2. $\varphi$ 相当于特征提取器

网络结构如下图所示
1. $z$ 表示样本图像（即目标）
2. $x$ 表示待搜索图像
全卷积网络的优点是待搜索图像不需要与样本图像具有相同尺寸，可以为网络提供更大的搜索图像作为输入，然后在密集网格上计算所有平移窗口的相似度。本文的相似度函数使用互相关，公式如下 $f(z,x)=\varphi(z) * \varphi(x) + b\mathcal 1 \tag{2}$ 1. $b\mathcal 1$ 表示在得分图中每个位置的取值
2.上式可将 $\varphi(z)$ 看成卷积核，在 $\varphi(x)$ 上进行卷积
跟踪时以上一帧目标位置为中心的搜索图像来计算响应得分图，将得分最大的位置乘以步长即可得到当前目标的位置。

我们用判别方法来对正、负样本对进行训练，其逻辑损失定义如下： $\mathcal l(y,v)=log(1+exp(-yv))\tag{3}$ 1. $y\in(+1,-1)$ 表示真值
2. $v$ 表示样本–搜索图像的实际得分
3.上式表示的正样本的概率为 $\frac{1}{1+e^{-v}}$ (sigmoid函数)，负样本的概率为 $1-\frac{1}{1+e^{-v}}$ ，则按交叉熵的公式很容易得到式 $(3)$ 的loss
训练时采用所有候选位置的平均loss来表示，公式如下： $L(y,v)=\frac{1}{\mathcal D}\sum_{u\in \mathcal D}\mathcal l(y[u],v[u])\tag{4}$ 1. $\mathcal D$ 表示最后得到的 score map
2. $u$ 表示 score map 中的所有位置
训练的卷积参数 $\theta$ 通过SGD来最小化如下问题得到： $arg\ \underset {\theta}{min}=\underset {(z,x,y)}{E}\ L(y,f(z,x;\theta))\tag{5}$
训练样本对 $(z, x)$ 从标注的视频数据集得到，如下图所示
1.搜索区域 $x$ 以目标区域 $z$ 为中心
2.如果超出图像则用像素平均值填充，保持目标宽高比不变
3.训练时不考虑目标类别
4.网络的输入尺寸统一
网络输出正负样本的确定：在输入搜索图像上（如 $255 * 255$ ），只要和目标的距离不超过R，那就算正样本，否则就是负样本，用公式表示如下： $y[u]=\left\{\begin{matrix} & +1\quad if\ k||u-c||\leq R\\ &-1\qquad otherwise\quad . \end{matrix}\right.\tag{6}$ 1. $k$ 为网络的总步长
2. $c$ 为目标的中心
3. $u$ 为score map的所有位置
4. $R$ 为定义的半径

Dataset curation
1.样本图像大小 $127\times 127$ ，搜索图像大小 $255\times255$
2.图像的缩放与填充如式所示： $s(w+2p)\times s(h+2p)=A$
3.从ILSVRC15的4500个视频中选出4417个视频，超过2,000,000个标注的跟踪框作为训练集
Network architecture
1.前两个卷积层后有池化层；
2.每个卷积层后都有ReLU层（conv5除外）；
3.每个线性层后都加上BN；
4.卷积层没有加padding；

Dataset size
VOT 2015
为什么5尺度比3尺度效果要差？？？
Snapshots
1.motion blur—robust（row 2）
2.drastic change of appearance—robust（row 1,3,4）
3.poor illumination and scale change—robust（row 6）
4.occlusion—sensitive（row 5）：because the model is never updated

Cross-correlation：适合特征分辨率较小的高层CNN，典型AlexNet的conv5，CNN特征提取部分更大更慢，滑窗检测计算量较大但没有边界效应，检测范围不受限，目标模型在线不更新，定位精度较低但更鲁棒。
Correlation Filter：适合特征分辨率较大的低层CNN，典型AlexNet的conv2，CNN特征提取部分更小更快，模板更新和检测都可以在频域高效解决，CF速度快，但边界效应难以处理，目标模型在线更新，定位精度更高但容易被污染。