Spatial Transformer Networks（STN）详解

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

1、STN的作用

1.1 灵感来源

普通的CNN能够显示的学习平移不变性，以及隐式的学习旋转不变性，但attention model 告诉我们，与其让网络隐式的学习到某种能力，不如为网络设计一个显式的处理模块，专门处理以上的各种变换。因此，DeepMind就设计了Spatial Transformer Layer，简称STL来完成这样的功能。

1.2 什么是STN？

关于平移不变性，对于CNN来说，如果移动一张图片中的物体，那应该是不太一样的。假设物体在图像的左上角，我们做卷积，采样都不会改变特征的位置，糟糕的事情在我们把特征平滑后后接入了全连接层，而全连接层本身并不具备平移不变性的特征。但是 CNN 有一个采样层，假设某个物体移动了很小的范围，经过采样后，它的输出可能和没有移动的时候是一样的，这是 CNN 可以有小范围的平移不变性的原因。
在这里插入图片描述
如上图所示，如果是手写数字识别，图中只有一小块是数字，其他大部分地区都是黑色的，或者是小噪音。假如要识别，用Transformer Layer层来对图片数据进行旋转缩放，只取其中的一部分，放到之后然后经过CNN就能识别了。我们发现，它其实也是一个layer，放在了CNN的前面，用来转换输入的图片数据，其实也可以转换feature map,因为feature map说白了就是浓缩的图片数据，所以Transformer layer也可以放到CNN里面。

2、STN网络架构

上图是Spatial Transformer Networks的网络结构，它主要由3部分组成，它们的功能和名称如下：参数预测：Localisation net、坐标映射：Grid generator、像素的采集：Sampler。
在这里插入图片描述
上图展示了一个平移变换的过程，也就是STN所做的事情。假设左边是Layer l−1的输出，也就是STN的输入，最右边为变换后的结果。假设是一个全连接层，n,m代表输出的值在输出矩阵中的下标，输入的值通过权值w，做一个组合，完成这样的变换。
假如要生成 $a_{11}^{l}$ ,那就是将左边矩阵的九个输入元素，全部乘以一个权值，加权相加： $a_{11}^{l}=w_{1111}^{l} a_{11}^{l-1}+w_{1112}^{l} a_{12}^{l-1}+w_{1113}^{l} a_{13}^{l-1}+\cdots+w_{1133}^{l} a_{33}^{l-1}$ 。这仅仅是 $a_{11}^{l}$ 的值，其他的结果也是这样算出来的，具体的计算公式如下所示： $a_{n m}^{l}=\sum_{i=1}^{3} \sum_{j=1}^{3} w_{n m, i j}^{l} a_{i j}^{l-1}$ 通过调整这些权值，就可以达到缩放和平移的目的，其实这就是变换的基本思路。在整个的变换过程中，会涉及到3个关键的问题需要去解决，具体的问题如下所示：

问题1-应该如何确定这些参数？
问题2-图片的像素点可以当成坐标，在平移过程中怎么实现原图片与平移后图片的坐标映射关系？
问题3-参数调整过程中，权值一定不可能都是整数，那输出的坐标有可能是小数，但实际坐标都是整数的，如果实现小数与整数之间的连接？

3、Localisation net是如何实现参数的选取的？

3.1 如何实现平移变换

在这里插入图片描述
对于平移变换而言，比如从 $a_{11}^{l-1}$ 平移到 $a_{21}^{l}$ ，得到的 $a_{21}^{l}$ 可以使用下式来表示： $a_{21}^{l}=w_{2111}^{l} a_{11}^{l-1}+w_{2112}^{l} a_{12}^{l-1}+w_{2113}^{l} a_{13}^{l-1}+\cdots+w_{2133}^{l} a_{33}^{l-1}$ ，当 $w_{2111}^{l}=1$ ，其余均为0时，上式则可以简化为： $a_{21}^{l}=1 * a_{11}^{l_{1} 1}$ ，这样就完成了整个平移变换，其它的平移也可以使用类似的方法来获得。

3.2 如何实现缩放变换

如果想要放大一张图片，只需要在X轴和Y轴方向上同时X2就可以啦，这样就可以达到放大的效果。上述过程可以用下图中的矩阵表达式来表示。缩小图片的原理和放大图片的原理很相似，具体的实现细节请看下图。
在这里插入图片描述

3.3 如何实现旋转变换

一个圆圈的角度是360度，我们可以通过控制水平和竖直两个方向来实现旋转。
在这里插入图片描述
由点A旋转θ度角，到达点B.得到下式： $\begin{array}{l}{x^{\prime}=R \cos \alpha} \\ {y^{\prime}=R \sin \alpha}\end{array}$ 由A点可得下式： $\begin{array}{l}{x=R \cos (\alpha+\theta)} \\ {y=R \sin (\alpha+\theta)}\end{array}$ 将上式展开可得： $\begin{array}{l}{x=R \cos \alpha \cos \theta-R \sin \alpha \sin \theta} \\ {y=R \sin \alpha \cos \theta+R \cos \alpha \sin \theta}\end{array}$ 把未知数α替换掉可得下式： $\begin{aligned} x &=x^{\prime} \cos \theta-y^{\prime} \sin \theta \\ y &=y^{\prime} \cos \theta+x^{\prime} \sin \theta \end{aligned}$ 总而言之，我们可以简单的理解为cosθ,sinθ就是控制这样的方向的，把它当成权值参数，写成矩阵形式，就完成了旋转操作。
在这里插入图片描述

3.4 如何实现裁剪变换

剪切变换相当于将图片沿x和y两个方向拉伸，且x方向拉伸长度与y有关，y方向拉伸长度与x有关，用矩阵形式表示前切变换如下：
在这里插入图片描述

3.5 总结

通过上面的分析，我们发现所有的这些操作，只需要六个参数[2X3]就可以实现各种变换功能啦，所以我们可以把feature map U作为输入，过连续若干层计算（如卷积、FC等），回归出参数θ，在我们的例子中就是一个[2，3]大小的6维仿射变换参数，用于下一步计算。

4、Grid generator如何实现像素点坐标的对应关系？

4.1 为什么会有坐标的问题？

由上面的公式，我们可以发现，无论如何做旋转，缩放，平移，只用到六个参数就可以了，具体如下图所示：

缩放的本质，其实就是在原样本上面进行采样，获得对应的像素点，通俗点说，就是输出的图片(i,j)的位置上，要对应输入图片的哪个位置？
在这里插入图片描述
如图所示旋转缩放操作，我们把像素点看成是坐标中的一个小方格，输入的图片 $\in R^{H x W x C}$ 可以是一张图片，或者feature map，其中H表示高，W表示宽，C表示颜色通道。经过变换 $T_{\theta}(G)$ ,θ是上一个部分（Localisation net）生成的参数，生成了图片 $\in R^{H^{\prime} x W^{\prime} x C}$ ,它的像素相当于被贴在了图片的固定位置上，用 $G=G_{i}$ 表示，像素点的位置可以表示为 $G_{i}=\left\{x_{i}^{t}, y_{i}^{t}\right\}$ ,这就是我们在这一阶段要确定的坐标。

4.2 仿射变换关系

在这里插入图片描述
上图展示的是一个坐标转换变换关系：其中 $\left(x_{i}^{t}, y_{i}^{t}\right)$ 表示的是输出目标图片的坐标， $\left(x_{i}^{s}, y_{i}^{s}\right)$ 表示原图片的坐标， $A_{\theta}$ 表示仿射关系。我们的仿射变换关系是：从目标图片——->原图片。作者在论文中写的比较模糊，比较满意的解释是坐标映射的作用，其实是让目标图片在原图片上采样，每次从原图片的不同坐标上采集像素到目标图片上，而且要把目标图片贴满，每次目标图片的坐标都要遍历一遍，是固定的，而采集的原图片的坐标是不固定的，因此用这样的映射。
在这里插入图片描述
如图所示，假设只有平移变换，这个过程就相当于一个拼图的过程，左图是一些像素点，右图是我们的目标，我们的目标是确定的，目标图的方框是确定的，图像也是确定的，这就是我们的目标，我们要从左边的小方块中拿一个小方块放在右边的空白方框上，因为一开始右边的方框是没有图的，只有坐标，为了确定拿过来的这个小方块应该放在哪里，我们需要遍历一遍右边这个方框的坐标，然后再决定应该放在哪个位置。所以每次从左边拿过来的方块是不固定的，而右边待填充的方框却是固定的，所以定义从目标图片——->原图片的坐标映射关系更加合理，且方便。

5、Sampler实现坐标求解的可微性

5.1 小数坐标问题的提出

我们可以假设一下我们的权值矩阵的参数是如下这几个数，x,y分别表示的是他们的下标，经过变换后，可以得到如下的变换关系。

前面举的例子中，权值都是整数，计算的结果也必定是整数，如果不是整数呢？
在这里插入图片描述
假如权值是小数，那得到的值也一定是小数，1.6,2.4，但是没有元素的下标索引是小数呀。那不然取最近吧，那就得到2，2了，也就是与 $a_{22}^{l}$ 对应了。

5.2 解决输出坐标为小数的问题

使用上面的四舍五入显然是不能进行梯度下降来回传梯度的。由于梯度下降是一步一步调整的，而且调整的数值都比较小，哪怕权值参数有小范围的变化，虽然最后的输出也会有小范围的变化，比如一步迭代后，结果有：1.6→1.64,2.4→2.38。但是即使有这样的改变，结果依然是 $a_{22}^{l_{1}} \rightarrow a_{22}^{l}$ 的对应关系没有一点变化，所以output依然没有变，我们没有办法微分了，也就是梯度依然为0呀，梯度为0就没有可学习的空间呀。所以我们需要做一个小小的调整。
仔细思考一下这个问题是什么造成的，我们发现其实在推导SVM的时候，我们也遇到过相同的问题，当时我们如果只是记录那些出界的点的个数，好像也是不能求梯度的，当时我们是用了hing loss，来计算一下出界点到边界的距离，来优化那个距离的，我们这里也类似，我们可以计算一下到输出[1.6,2.4]附近的主要元素，如下所示，计算一下输出的结果与他们的下标的距离，可得：

然后做如下更改：
在这里插入图片描述
他们对应的权值都是与结果对应的距离相关的，如果目标图片发生了小范围的变化，这个式子也是可以捕捉到这样的变化的，这样就能用梯度下降法来优化了。

5.3 Sampler的数学原理

论文作者对我们前面的过程给出了非常严密的证明过程，以下是我对论文的转述。每次变换，相当于从原图片 $\left(x_{i}^{s}, y_{i}^{s}\right)$ 中，经过仿射变换，确定目标图片的像素点坐标 $\left(x_{i}^{t}, y_{i}^{t}\right)$ 的过程,这个过程可以用公式表示为：
在这里插入图片描述
kernel k表示一种线性插值方法，比如双线性插值，更详细的请参考该链接， $\phi_{x}, \phi_{y}$ 表示插值函数的参数； $U_{n m}^{c}$ 表示位于颜色通道C中坐标为(n,m)的值。
如果使用双线性插值，则可以使用下式来表示：

为了允许反向传播回传损失，我们可以求对该函数求偏导：
在这里插入图片描述
对于 $y_{i}^{s}$ 的偏导也类似，如果就能实现这一步的梯度计算，而对于 $=\frac{\partial x_{i}^{s}}{\partial \theta}, \frac{\partial y_{i}^{s}}{\partial \theta}$ 的求解也很简单，所以整个过程按照Localisation net←Grid generator←Sampler的梯度回传就能走通了。

6、Spatial Transformer Networks（STN)

在这里插入图片描述
将这三个组块结合起来，就构成了完整STN网络结构了。这个网络可以加入到CNN的任意位置，而且相应的计算量也很少。将 spatial transformers 模块集成到 cnn 网络中，允许网络自动地学习如何进行 feature_map 的转变，从而有助于降低网络训练中整体的代价。定位网络中输出的值，指明了如何对每个训练数据进行转化。

7、STN 代码实现

STN结构示例如下所示：

class STN(nn.HybridBlock):
	##继承HybridBlock模块，可以方便的hybrid，将命令式编程转换为符号式提升性能但损失了一定的灵活性
    def __init__(self):
        super(STN, self).__init__()
        with self.name_scope():
		# 使用name_scope可以自动给每一层生成独一无二的名字方便读取特定层
        # Spatial transformer localization-network
        # loc 定义了两层卷积网络
            loc = self.localization = nn.HybridSequential() 
            loc.add(nn.Conv2D(8, kernel_size=7))
            loc.add(nn.MaxPool2D(strides=2))
            loc.add(nn.Activation(activation='relu'))
            loc.add(nn.Conv2D(10, kernel_size=5))
            loc.add(nn.MaxPool2D(strides=2))
            loc.add(nn.Activation(activation='relu'))
         # 采用两层全连接层，回归出仿射变换所需的参数θ（6，）   
            # Regressor for the 3 * 2 affine matrix
            fc_loc = self.fc_loc = nn.HybridSequential()
            fc_loc.add(nn.Dense(32,activation='relu'))
            # 将该层w初始化为全零，b初始化为[1,0,0,0,1,0]
            fc_loc.add(nn.Dense(3 * 2,weight_initializer='zeros'))
            
    # Spatial transformer network forward function
    # 使用hybrid_forward需要增加F参数，它会自动判定前向过程中调用nd还是sym            
    def hybrid_forward(self,F, x):    
        xs = self.localization(x)
        xs = xs.reshape((-1, 10 * 3 * 3))
        theta = self.fc_loc(xs)
        theta = theta.reshape((-1, 2*3))
		# MxNet 已经定义好了相应的产生网格和采样的函数接口
        grid = F.GridGenerator(data=theta, transform_type='affine',target_shape=(28,28),name='grid')

        x = F.BilinearSampler(data=x,grid=grid,name='sampler' )

        return x

主体网络代码如下所示：

class Net(nn.HybridBlock):
    def __init__(self):
        super(Net, self).__init__()
        # 对输入图片进行STN变换后送入一个简单的两层卷积，两层全连接网络
        with self.name_scope():
            self.model = nn.HybridSequential()
            self.model.add(STN())
            self.model.add(nn.Conv2D(10, kernel_size=5))
            self.model.add(nn.MaxPool2D())
            self.model.add(nn.Activation(activation='relu'))
            self.model.add(nn.Conv2D(20, kernel_size=5))
            self.model.add(nn.Dropout(.5))
            self.model.add(nn.MaxPool2D())
            self.model.add(nn.Activation(activation='relu'))
            self.model.add(nn.Flatten())
            self.model.add(nn.Dense(50))
            self.model.add(nn.Activation(activation='relu'))
            self.model.add(nn.Dropout(.5))
            self.model.add(nn.Dense(10))

    def hybrid_forward(self,F, x):
        for i,b in enumerate(self.model):
            x = b(x)
        return x

参考资料

[1] STN论文
[2] 参考博客1
[3] 参考博客2

注意事项

[1] 该博客转载自该博客；
[2] 由于个人能力有限，该博客可能存在很多的问题，希望大家能够提出改进意见。
[3] 如果您在阅读本博客时遇到不理解的地方，希望您可以联系我，我会及时的回复您，和您交流想法和意见，谢谢。
[4] 本人业余时间承接各种本科毕设设计和各种小项目，包括图像处理（数据挖掘、机器学习、深度学习等）、matlab仿真、python算法及仿真等，有需要的请加QQ：1575262785详聊，备注“项目”！！！

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/183692.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

Spatial Transformer Networks（STN）详解

目录

1、STN的作用

1.1 灵感来源

1.2 什么是STN？

2、STN网络架构

3、Localisation net是如何实现参数的选取的？

3.1 如何实现平移变换

3.2 如何实现缩放变换

3.3 如何实现旋转变换

3.4 如何实现裁剪变换

3.5 总结

4、Grid generator如何实现像素点坐标的对应关系？

4.1 为什么会有坐标的问题？

4.2 仿射变换关系

5、Sampler实现坐标求解的可微性

5.1 小数坐标问题的提出

5.2 解决输出坐标为小数的问题

5.3 Sampler的数学原理

6、Spatial Transformer Networks（STN)

7、STN 代码实现

参考资料

注意事项

发表回复

Spatial Transformer Networks（STN）详解

目录

1、STN的作用

1.1 灵感来源

1.2 什么是STN？

2、STN网络架构<img src="https://img-blog.csdnimg.cn/20190908104416274.png" title="" alt="在这里插入图片描述">

3、Localisation net是如何实现参数的选取的？

3.1 如何实现平移变换

3.2 如何实现缩放变换

3.3 如何实现旋转变换

3.4 如何实现裁剪变换

3.5 总结

4、Grid generator如何实现像素点坐标的对应关系？

4.1 为什么会有坐标的问题？

4.2 仿射变换关系

5、Sampler实现坐标求解的可微性

5.1 小数坐标问题的提出

5.2 解决输出坐标为小数的问题

5.3 Sampler的数学原理

6、Spatial Transformer Networks（STN)

7、STN 代码实现

参考资料

注意事项

相关推荐

linux下的删除文件命令,Linux下删除文件命令「建议收藏」

Redis为什么这么快？Redis是单线程还是多线程？

mysql基础

手机分辨率分类「建议收藏」

android之实现打开相册、拍照录像、播放视频、保存图片到系统相册\指定位置、图片压缩[通俗易懂]

ArcGIS二次开发及应用学习的最佳网站

发表回复

2、STN网络架构