轻量级网络什么意思_轻量级网络有哪些

轻量级网络什么意思_轻量级网络有哪些轻量级网络ShuffleNetv1有事没事扯扯淡关注0.0732019.01.1014:50:55字数1,803阅读2,698ShuffleNetpaperShuffleNet是旷视科技提出的一种计算高效的CNN模型,其和MobileNet和SqueezeNet等一样主要是想应用在移动端。所以,ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度,这需要很好地在…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

ShuffleNet paper

ShuffleNet是旷视科技提出的一种计算高效的CNN模型,其和MobileNet和SqueezeNet等一样主要是想应用在移动端。所以,ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度,这需要很好地在速度和精度之间做平衡。ShuffleNet的核心是采用了两种操作:pointwise group convolution和channel shuffle,这在保持精度的同时大大降低了模型的计算量。目前移动端CNN模型主要设计思路主要是两个方面:模型结构设计和模型压缩。ShuffleNet和MobileNet一样属于前者,都是通过设计更高效的网络结构来实现模型变小和变快,而不是对一个训练好的大模型做压缩或者迁移。

Group convolution

谈论起MoblieNet/ShuffleNet这些网络结构,就绕不开Group convolution,甚至可以认为这些网络结构只是Group convolution的变形而已。那么什么是Group convolution?

轻量级网络什么意思_轻量级网络有哪些

convolution

假设有输入feature map,尺寸为 HxWxC ,同时有khxw卷积核。对于一般卷积,输出feature map尺寸为H'xW'xk(这里不关心H'W' )。

轻量级网络什么意思_轻量级网络有哪些

Group convolution(group=2)

而Group convolution的实质就是将convolution分为 g 个独立的组,分别计算。即:

  • 把input feature分为g组,每组的大小为HxWx(C/g)(假设可以整除,下同)
  • 把kernel也分为g组,每组大小hxwx(k/g)
  • 按顺序,每组input feature和kernel分别做普通卷积,输出gH'xW'xk/g,一共H'xW'xk
轻量级网络什么意思_轻量级网络有哪些

ResNet bottlenect结构

这里简单介绍一下ResNet的bottleneck网络结构。注意Channel维度变化: 256D>>64D>>256D ,宛如一个中间细两端粗的瓶颈,所以称为“bottleneck”。这种结构相比VGG,早已经被证明是非常效的,能够更好的提取图像特征。

下图展示了ShuffleNet的结构,其中(a)就是加入Depthwise的ResNet bottleneck结构,而(b)和(c)是加入Group convolution和Channel Shuffle的ShuffleNet的结构。

轻量级网络什么意思_轻量级网络有哪些

ShuffleNet的基本单元是在一个残差单元的基础上改进而成的。如图a所示,这是一个包含3层的残差单元:首先是1×1卷积,然后是3×3的depthwise convolution(DWConv,主要是为了降低计算量),这里的3×3卷积是瓶颈层(bottleneck),紧接着是1×1卷积,最后是一个短路连接,将输入直接加到输出上。现在,进行如下的改进:将密集的1×1卷积替换成1×1的group convolution,不过在第一个1×1卷积之后增加了一个channel shuffle操作。值得注意的是3×3卷积后面没有增加channel shuffle,按paper的意思,对于这样一个残差单元,一个channel shuffle操作是足够了。还有就是3×3的depthwise convolution之后没有使用ReLU激活函数。改进之后如图b所示。对于残差单元,如果stride=1时,此时输入与输出shape一致可以直接相加,而当stride=2时,通道数增加,而特征图大小减小,此时输入与输出不匹配。一般情况下可以采用一个1×1卷积将输入映射成和输出一样的shape。但是在ShuffleNet中,却采用了不一样的策略,如图c所示:对原输入采用stride=2的3×3 avg pool,这样得到和输出一样大小的特征图,然后将得到特征图与输出进行连接(concat),而不是相加。这样做的目的主要是降低计算量与参数大小。

那么ShuffleNet为何要这样做?既然是轻量化网络,我们还是来算算计算量。
假设输入feature为HxWxC,所有的1x1卷积数为C3x3Depthwise卷积数为k,Group convolution都分为g, (a)和(b)的网络乘法计算量:

a) ResNet bottleneck:HW(2Ck+9)
b) ShuffleNet stride=1结构:HW(2Ck+9)+shufflecost

相比原始加入Depthwise的ResNet缩小了很多的计算量。所以ShuffleNet相当于保留ResNet结构,同时又压低计算量的改进版。这里解释下为何要做Channel Shuffle操作:

ShuffleNet的本质是将卷积运算限制在每个Group内,这样模型的计算量取得了显著的下降。然而导致模型的信息流限制在各个Group内,组与组之间没有信息交换,如图15,这会影响模型的表示能力。因此,需要引入组间信息交换的机制,即Channel Shuffle操作。同时Channel Shuffle是可导的,可以实现end-to-end一次性训练网络。

轻量级网络什么意思_轻量级网络有哪些

group convolution存在一个弊端,如图a所示,其中GConv是group convolution,这里分组数是3。可以看到当堆积GConv层后一个问题是不同组之间的特征图是不通信的,这就好像分了三个互不相干的路,大家各走各的,这目测会降低网络的特征提取能力。这样你也可以理解为什么Xception,MobileNet等网络采用密集的1x1卷积,因为要保证group convolution之后不同组的特征图之间的信息交流。但是达到上面那个目的,我们不一定非要采用dense pointwise convolution。

如图b所示,你可以对group convolution之后的特征图进行“重组”,这样可以保证接下了采用的group convolution其输入来自不同的组,因此信息可以在不同组之间流转。这个操作等价于图c,即group convolution之后对channels进行shuffle,但并不是随机的,其实是“均匀地打乱”。在程序上实现channel shuffle是非常容易的:假定将输入层分为g组,总通道数为gxn ,首先你将通道那个维度拆分为(g,n)两个维度,然后将这两个维度转置变成(n,g),最后重新reshape成一个维度。如果你不太理解这个操作,你可以试着动手去试一下,发现仅需要简单的维度操作和转置就可以实现均匀的shuffle。利用channel shuffle就可以充分发挥group convolution的优点,而避免其缺点。

当然,ShuffleNet有2个重要缺点:

  1. Shuffle channel在实现的时候需要大量的指针跳转和Memory set,这本身就是极其耗时的;同时又特别依赖实现细节,导致实际运行速度不会那么理想。
  2. Shuffle channel规则是人工设计出来的,不是网络自己学出来的。这不符合网络通过负反馈自动学习特征的基本原则,又陷入人工设计特征的老路(如sift/HOG等)。

参考链接
轻量化网络ShuffleNet MobileNet v1/v2 解析
CNN模型之ShuffleNet

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/195704.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号