mask rcnn详解_3R制造

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一. Mask-RCNN 介绍

上篇文章介绍了 FCN，这篇文章引入个新的概念 Mask-RCNN，看着比较好理解哈，就是在 RCNN 的基础上添加 Mask。

Mask-RCNN 来自于年轻有为的 Kaiming 大神，通过在 Faster-RCNN 的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。

论文下载：Mask R-CNN 部分翻译

代码下载：【Github】

Mask-RCNN 的网络结构示意（在作者原图基础上修改了一下）：

mask rcnn详解_3R制造

假设大家对 Faster 已经很熟悉了，不熟悉的同学建议先看下之前的博文：【目标检测-RCNN系列】

其中黑色部分为原来的 Faster-RCNN，红色部分为在 Faster网络上的修改：

1）将 Roi Pooling 层替换成了 RoiAlign；

2）添加并列的 FCN 层（mask 层）；

先来概述一下 Mask-RCNN 的几个特点（来自于 Paper 的 Abstract）：

1）在边框识别的基础上添加分支网络，用于语义Mask 识别；

2）训练简单，相对于 Faster 仅增加一个小的 Overhead，可以跑到 5FPS；

3）可以方便的扩展到其他任务，比如人的姿态估计等；

4）不借助 Trick，在每个任务上，效果优于目前所有的 single-model entries；

包括 COCO 2016 的Winners。

PS：写到这儿提醒一句，建议大家先读一遍原 Paper，这样再回来看的话会有第二次理解。

二. RCNN行人检测框架

基于最早的 Faster RCNN 框架，出现不少改进，主要有三篇需要看：

1）作者推荐的这篇

Speed/accuracy trade-offs for modern convolutional object detectors

论文下载【arxiv】

2）ResNet

MSRA也算是作者自己的作品，可以 refer to blog【ResNet残差网络】

论文下载【arxiv】

3）FPN

Feature Pyramid Networks for Object Detection，通过特征金字塔来融合多层特征，实现CNN。

论文下载【arxiv】

来看下后面两种 RCNN 方法与 Mask 结合的示意图（直接贴原图了）：

mask rcnn详解_3R制造

图中灰色部分是原来的 RCNN 结合 ResNet or FPN 的网络，下面黑色部分为新添加的并联 Mask层，这个图本身与上面的图也没有什么区别，旨在说明作者所提出的Mask RCNN 方法的泛化适应能力 – 可以和多种 RCNN框架结合，表现都不错。

三. Mask-RCNN 技术要点

● 技术要点1 – 强化的基础网络

通过 ResNeXt-101+FPN 用作特征提取网络，达到 state-of-the-art 的效果。

● 技术要点2 – ROIAlign

采用 ROIAlign 替代 RoiPooling（改进池化操作）。引入了一个插值过程，先通过双线性插值到14*14，再 pooling到7*7，很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。

PS：虽然 Misalignment 在分类问题上影响并不大，但在 Pixel 级别的 Mask 上会存在较大误差。

后面我们把结果对比贴出来（Table2 c & d），能够看到 ROIAlign 带来较大的改进，可以看到，Stride 越大改进越明显。

● 技术要点3 – Loss Function

每个 ROIAlign 对应 K * m^2 维度的输出。K 对应类别个数，即输出 K 个mask，m对应池化分辨率（7*7）。Loss 函数定义：

Lmask(Cls_k) = Sigmoid (Cls_k)，平均二值交叉熵（average binary cross-entropy）Loss，通过逐像素的 Sigmoid 计算得到。

Why K个mask？通过对每个 Class 对应一个 Mask 可以有效避免类间竞争（其他 Class 不贡献 Loss ）。

通过结果对比来看（Table2 b），也就是作者所说的 Decouple 解耦，要比多分类的 Softmax 效果好很多。