SPPNet的原理[通俗易懂]

SPPNet的原理[通俗易懂]简介SPPNet的英文名称是SpatialPyramidPoolingConvolutionalNetworks,翻译成中文是“空间金字塔池化卷积网络”。paper地址https://arxiv.org/pdf/1406.4729.pdf原理    SPPNet主要做了一件事:将CNN的输入从固定尺寸改进为任意尺寸。例如,在普通的CNN结构中,输入的尺寸往往是固定的(如224*224…

大家好,又见面了,我是你们的朋友全栈君。

简介

SPPNet的英文名称是Spatial Pyramid Pooling Convolutional Networks,翻译成中文是“空间金字塔池化卷积网络”。

paper地址https://arxiv.org/pdf/1406.4729.pdf

原理

       SPPNet主要做了一件事:将CNN的输入从固定尺寸改进为任意尺寸。例如,在普通的CNN结构中,输入的尺寸往往是固定的(如224*224*3),输出可以看做是一个固定维数的向量。SPPNet在普通的CNN结构中加入了ROI池化层(ROI Pooling),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。

ROI池化层一般跟在卷积层后面,它的输入是任意大小的卷积,输出是固定维数的向量,如图所示:

SPPNet的原理[通俗易懂]

为什么ROI池化层能够把任意大小的卷积特征转换成固定长度的向量

      不妨设卷积层的输出的宽度为w, 高度为h,通道为c。不管输入的图像尺寸是多少,卷积层的通道数都不会变,也就是说c是一个常数。而w,h会随着输入图像尺寸的变化而变化,可以看做是两个变量。以上图中的ROI池化层为例,它首先把卷积层划分为4*4的网格,每个网格的宽度是w/4,高是h/4,通道数为c。当不能整除时,需要取整。接着,对每个网格中的每个通道,都取出其最大值,换句话说,就是说对每个网格内的特征做做最大值池化(Max Pooling)。这个4*4的网格最终就形成可16c维的特征。接着,再把网络划分成2*2的网络,同样的方法提取特征,提取的特征的长度为4c。再把网络划分为1*1的网络,提取的特征的长度就是c,最后的1*1的划分实际是去处卷积中每个通道的最大值。最后,将得到的特征拼接起来,得到的特征是16c+4c+c=21c维的特征。很显然,这个输出特征的长度与w,h两个值无关的,因此ROI池化层可以吧任意宽度,高度的卷积特征转换为固定长度的向量。

可以这样考虑问题:网络的输入是一张图像,中间进过若干卷积形成了卷积特征,这个卷积特征实际上和原始图像在位置上是有一定的关系的。因此,原始图像中的候选框,实际上也可以对应到卷积特征中相同位置的框。由于候选区域框的大小千变万化,对应到卷积特征的区域形状也各不相同,但是不用担心,利用ROI池化层可以把卷积特征中的不同形状的区域对应到同样长度的向量特征。


参考书籍21个项目玩转深度学习

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/145026.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • matlab_dock是什么意思

    matlab_dock是什么意思Mac电脑Dock是什么意思,Dock怎么用?个人总感觉,不能原谅我们自己的惰性!遇到问题自己想办法独立解决,解决不了,可以想办法求助搜索引擎。如果连这也做不到,那实在是无可救药了!下面Mac电脑Dock是什么意思,Dock怎么用的内容,就是笔者,求助搜索引擎,并自己实践的结果,弄清楚之后,还是有一点点成就感的,如果您同意笔者的观点,不妨多抽出点时间,来北海亭逛逛,欢迎您谈谈个人想法!一、Mac电…

  • hibernate和mybatis的区别及特点_hibernate配置文件中,不包含下面的

    hibernate和mybatis的区别及特点_hibernate配置文件中,不包含下面的很长一段时间,网上有很多关于Hibernate与Mybatis孰优孰劣的争论,两个阵营的人谁也不能说服谁,每个人的理由都很有道理。今天,我分享的主题是:在一个项目中同时使用Hibernate和Mybatis两个ORM框架。作为一个开发者,没有必要花费过多的时间去证明技术无用论,当你开始指责某个框架垃圾,另外一个框架最好时,隐性的暴露出你对某个框架没有深入的研究,无知的指责对于技术的提升没有…

  • JAVA面试题:HashMap和Hashtable的区别

    JAVA面试题:HashMap和Hashtable的区别 HashMap和Hashtable的区别1.共同点:都是双列集合,底层都是哈希算法2.区别:*1.HashMap是线程不安全的,效率高,JDK1.2版本*Hashtable是线程安全的,效率低,JDK1.0版本*2.HashMap可以存储null键和null值*Hashtable不可以存储null键和null值3.代码示例:publicclasstes…

  • easyui(一) 初始easyui「建议收藏」

    easyui(一) 初始easyui「建议收藏」分享使我快乐。哈哈~–WZY一、什么是easyui?学习一个东西,最重要的是知道它的定位(是干嘛的,基本的用法是什么,快速入门),其实easyui也非常简单,不要觉得很难。easyui就是一

  • kettle工具的介绍和使用

    kettle工具的介绍和使用kettle详解(数据抽取、转换、装载)原文地址链接:https://blog.csdn.net/qq_35731570/article/details/71123413文件资源库模式的调度命令:job:$kitchen路径-file=$job路径kitchen.sh-file=/opt/dpbs/kettlefile/pan_quality_indicator….

    2022年10月16日
  • 联想服务器ts系列介绍,联想服务器ThinkServerTS230.ppt「建议收藏」

    联想服务器ts系列介绍,联想服务器ThinkServerTS230.ppt「建议收藏」联想服务器ThinkServerTS230联想在2012年底推出的专为中小型网络应用环境设计的单路塔式服务器——ThinkServerTS230。作为联想ThinkServer服务器家族的入门级产品,ThinkServerTS230在具备极高性价比的同时,亦完美传承了可靠品质、创新引领、全程关怀三大Think基因,具备…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号