【论文学习】STN —— Spatial Transformer Networks

全栈程序员-用户IM • 2022年8月31日上午9:46 • 未分类

【论文学习】STN —— Spatial Transformer NetworksPaper：SpatialTransformerNetworks这是Google旗下DeepMind大作，最近学习人脸识别，这篇paper提出的STN网络可以代替align的操作，端到端的训练实现图片的align。实际使用的过程中不需要landmarks也可以做align了，而且还可以并联多个，这对于多个物体非常适用，而且，输出的feature大小可以变换，这一点也很灵活。提出…

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

Paper：Spatial Transformer Networks

这是Google旗下 DeepMind 大作，最近学习人脸识别，这篇paper提出的STN网络可以代替align的操作，端到端的训练实现图片的align。

实际使用的过程中不需要landmarks也可以做align了，而且还可以并联多个，这对于多个物体非常适用，而且，输出的feature大小可以变换，这一点也很灵活。

提出背景

CNN可以显示的学习平移不变性，隐式的学习到对旋转，伸缩、尺度等变换的不变性，Google DeepMind 2016年提出的STN网络，可以显式地赋予网络对上述变换的不变性。不依赖于关键点进行矫正和对齐，而且网络可以作为模块加入神经网络的各个层中。

先来看STN效果

【论文学习】STN —— Spatial Transformer Networks

如图，是手写数字识别，图中只有一小块是数字，其他大部分地区都是黑色的，或者是小噪音。假如要识别，用STN层来对图片数据进行旋转缩放，只取其中的一部分，放到之后然后经过CNN就能识别了。说白了就是把图片中物体所在区域送到网络后面的层中，使得后面的分类任务更简单。

本质上来说，CNN是尽力让网络适应物体的形变，而STN是直接通过 Spatial Transformer 将形变的物体给变回到正常的姿态，然后再给网络识别。

STN整体结构

【论文学习】STN —— Spatial Transformer Networks

STN的结构如上图所示，由三个模块组成：

（1）Localisation net
Localisation Network的输入是特征图U，输出是变换参数θ，该网络通过回归来学习变换变换参数θ。
θ参数的规模取决于将图像的空间变换视为何种变换，当把图像的空间变换视为纺射变换，θ由6个参数决
定。

（2）Grid generator

Grid generator用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置。

【论文学习】STN —— Spatial Transformer Networks

上图中，(a)恒等变换与采样； (b)仿射变换与采样。仿射变换如下所示

【论文学习】STN —— Spatial Transformer Networks

（3）Sampler

通过仿射变换等变化的坐标有可能是浮点数，如果直接取整，则导致无法进行反向传播。因此作者使用
如下公式建立变换前后的坐标映射关系：

【论文学习】STN —— Spatial Transformer Networks

具体实现方式有多种，比如最近邻取整，双线性插值等等。

实验结果

【论文学习】STN —— Spatial Transformer Networks

数据集：对mnist图片上的数字做了各种形变操作，比如平移，扭曲，放缩，旋转等。其中，R: rotated, RTS: rotated, translated, and scaled, P: projective distortion, E: elastic distortion。

Spatial Transformer 模块嵌入到两种主流的分类网络，FCN和CNN中图片输入层与后续分类层之间。

【论文学习】STN —— Spatial Transformer Networks

【论文学习】STN —— Spatial Transformer Networks

总结思考

Spatial Transformer Networks的出发点是传统CNN中的空间不变性是通过pooling实现的，然而pooling的小尺寸导致不变性只能在网络的深层达到，而且并不能真正处理输入数据的大变换。于是作者提出，对图像或者中间层的feature map作变换。

一个非常大的好处是，STN中三个模块全部可微，因此可以实现端到端的训练。

而且可以处理image，也可以处理feature，应用的位置也非常多，所以说设计的非常灵活了！

STN正常而言是不需要先验的，那么如果有先验的landmarks会不会效果更好呢？

参考文献

[1] https://arxiv.org/abs/1506.02025

[2] https://zhuanlan.zhihu.com/p/37110107

[3] https://arleyzhang.github.io/articles/7c7952f0/

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/183894.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

ios之EINPROGRESS错误[通俗易懂]

ios之EINPROGRESS错误[通俗易懂]今天在ios建立socket时报了这个错误：EINPROGRESS，但是socket已经连接。socket为非阻塞模式，但在connect的时候，发现返回值为-1，刚开始以为是connect出现错误，但在服务器上看到了链接是ESTABLISED状态。证明链接是成功的但为什么会出现返回值是-1呢？经过查询资料，以及看stevens的APUE，也发现有这么一说。当connect在非阻

全栈程序员-用户IM
2022年7月17日
maven镜像还有不支持发型版本5

maven镜像还有不支持发型版本5maven镜像<mirror> <id> alimaven </id> <mirrorOf> central </mirrorOf> <name> aliyunmaven </name> <url> http://maven.aliyun.com/nexus/content/repositories/central/ </u

全栈程序员-用户IM
2022年8月21日
查看Android apk签名信息

查看Android apk签名信息必须先安装jdk并配置好环境变量，然后运行->CMD->输入以下命令keytool-list-printcert-jarfileapp.apkWmImac-52:~fanyuanhua$keytool-list-printcert-jarfile/Users/fanyuanhua/2019-10/备忘录记事本/10.25/app-tencent-release-…

全栈程序员-用户IM
2022年6月8日
6种常见的测试用例设计方法及应用_测试用例设计的方法

6种常见的测试用例设计方法及应用_测试用例设计的方法测试前准备作为一个测试人员，软件测试的流程首先是要非常熟悉的，何时何地都能脱口而出，避免一切翻车的可能。需要注意的是流程没有唯一答案，具体由项目决定。所以给出的只是一个还算通用的参考流程。　　我们要熟知的测试流程：　　总结一下：在测试流程中，有6个部分，其中3个部分涉及到了用例，可见写好用例的重要性。　　所以，结合这些年吃过的亏，我来给大家缕缕，如何快速的get到测试用例的设计方法。　　5种常见的测试用例设计方法　　一、等价类划分　　1)概念　　某个输入域的集合，在这个集合中每个输入条件都是

全栈程序员-用户IM
2022年10月9日
UserDetailsService详解

UserDetailsService详解本文来说下UserDetailsService相关的知识与内容文章目录概述概述

全栈程序员-用户IM
2022年10月26日
ubuntu入门

Ubuntu的发音Ubuntu，源于非洲祖鲁人和科萨人的语言，发作oo-boon-too的音。了解发音是有意义的，您不是第一个为此困惑的人，当然，也不会是最后一个：）大多数的美国人读ubun

全栈程序员-用户IM
2021年12月27日

发表回复

关注全栈程序员社区公众号