Motivation

R-CNN等神经网络都要求输入图片是固定尺寸，比如R-CNN要求输入图片是224×224，这样就限制了其他长宽比和其他尺寸的输入图片。不同长宽比和不同尺寸的输入图片是有意义的，首先，图片数据都不是同一尺寸的，他们大小不一，长宽比不同。第二，调整图片的长宽比可以有助于识别图中物体，调整图片的尺寸可以帮助学习器学习太大或太小的物体。

在R-CNN中，输入的图片是裁剪的区域，或者把区域缩放成目标大小，如下图所示：
crop and warp
裁剪区域可能只包含物体的部分区域（如左上图），缩放区域导致物体变形（如右上图）,这些都可能会影响识别和检测。

Innovation

卷积网络要求固定尺寸输入图片的原因在于全连接层要求固定输入，卷积层和池化层并没有这种要求。作者结合图像处理的图像金字塔算法，提出了空间金字塔池化层，使得神经网络能够接收任何尺寸的输入图片。空间金字塔池化层把任意大小的feature map转换成固定长度的特征向量，从而能够传输给全连接层。

下图是空间金字塔池化网络的结构：
spatial pyramid pooling network structure
上部分是传统网络的结构，下部分是空间金字塔池化网络结构，可以看到空间金字塔池化层可以避免裁剪和缩放输入图片。

Adavantage

SPP可以生成一个固定长度的输出，忽视输入大小，而滑动窗体池化层不能。
SPP使用多级别空间bins，而滑动窗体池化使用一个窗体大小。多级别池化对物体变形有很好的鲁棒性。
因为输入尺寸的灵活性，SPP可以池化不同尺寸提取的特征。

Spatial Pyramid Pooling Layer

空间金字塔池化层结构：

空间金字塔池化层位于卷积层与全连接层之间，替代原来最后一个池化层。空间金字塔池化层可以有几个等级，上图有{1， 2， 4}个等级，分别把feature map分成1，4，16个bin，每个bin进行池化，作者使用最大池化。上图的池化操作产生21个bin，把这21个bin输出拼接在一起，然后输出21×256大小的特征（256是feature map的通道数）。

设最后卷积层输出的feature map为 $\times a$ ，一个金字塔等级为n，有 $\times n$ 个bin，那么这等级的池化窗口大小为 $\lceil a/n \rceil$ ，步长为 $\lfloor a/n \rfloor$ 。

下图一个具体的池化例子：

上部分表示不同级别金字塔的池化操作，下部分表示之后全连接层。

Multi-size training

作者使用caffe训练SPPnet网络，但是caffe不支持多尺寸图片输入，为了实现多尺寸训练，作者实现两个网络，一个网络输入224×224大小的图片，另一个网络输入180*180大小的图片。这两个网络共享参数。训练时，在一个网络中训练一个epoch，然后切换到另外一个网络训练一个epoch。

Object Detection

把空间金字塔池化层加入到R-CNN中，使得R-CNN能够接收任意输入图片。为了加快R-CNN的运行，输入网络的是整张图片，计算出最后的feature map。然后从feature map中提取候选区域的特征向量进行分类和定位，如下图所示。

这里有一个问题，就是如何确定原图的候选区域位置映射到卷积后feature map的位置。假设卷积和池化操作padding的大小为 $\lfloor p/2 \rfloor$ ，其中p为过滤器的大小。原图中点 $(x, y)$ 经过映射后在feature map的位置为 $(x^{'}, y^{'})$ ，映射关系为 $(x, y) = (S x^{'}, S y^{'})$ 。这里S是所有步长的乘积（所有卷积和池化的步长）。假设某个候选区域在原图的左上角坐标为 $(x, y)$ ，在feature map中的坐标为 $(\lfloor x/S \rfloor + 1, \lfloor y/S \rfloor + 1)$ 。假设某个候选区域在原图的右下角坐标为 $(x, y)$ ，在feature map中的坐标为 $(\lceil x/S \rceil – 1, \lceil y/S \rceil – 1)$ 。如果padding大小不是 $\lfloor p/2 \rfloor$ ，还需要计算偏移量。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/131382.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

SPPnet笔记

Motivation

Innovation

Adavantage

Spatial Pyramid Pooling Layer

Multi-size training

Object Detection

发表回复

SPPnet笔记

Motivation

Innovation

Adavantage

Spatial Pyramid Pooling Layer

Multi-size training

Object Detection

相关推荐

Linux中解压zip文件

工作笔记 | Visual Studio 调用 Web Service

angularjs子组件向父组件传值_react子组件传值

javascript常见编程模式举例

Leetcode: Plus One

如果我说熟悉SpringBoot 面试官会怎么问？

发表回复