MGN网络详解以及代码分析「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

MGN网络详解以及代码分析

最近阅读了云从科技最新的关于REID的论文以及相关的博客和代码，算法是基于MGN，关于网络的部分，这里记录一些自己的学习笔记。
以下是我参考的博客和代码的网址

博客： https://blog.csdn.net/Gavinmiaoc/article/details/80840193
代码： https://github.com/Gavin666Github/reid-mgn

以下内容主要为对于论文、博客以及代码的学习心得

一、首先看一下网络结构
在这里插入图片描述
网络结构从左到右，先是两个人的图片输入，这边有 3 个模块。3 个模块的意思是表示 3 个分支共享网络，前三层这三个分支是共享的，到第四层时分成三个支路，第一个支路是 global 的分支，第二个是 part-2 的分支，第三个是 part-3 的分支。在 global 的地方有两块，右边这个方块比左边的方块大概缩小了一倍（12×4），因为做了个下采样，下面两个分支没有做下采样，所以第四层和第五层特征图是一样大小的（24×8）。
接下来我们看一下图中黄色部分的区域。网络对 part-2 跟 part-3 做一个从上到下的纵向分割，part-2 在第五层特征图谱分成两块，part-3 对特征图谱从上到下分成三块。在分割完成后，我们用Max-pooling，得到一个 2048 的向量。
然后我们来看一下具体是怎么操作的，part-2 跟 part-3 的操作跟 global不一样，part-2 有两个 pooling，第一个pooling对应Zg p2（蓝色的长条），通过24×8大小的卷积核，将第五层特征图直接最大池化生成1×1×2048的向量。第二个pooling的卷积核大小和第一个不一样，为12×8，因此生成的是2×1×2048的向量，我们将其拆成2个1×1×2048的向量，对应图中part-2 中的2个接在一起的长条形。淡蓝色这个地方变成了小方体，大小为1×1×256，这个地方是做的降维，从 2048 维做成 256 维，主要是为了方便特征计算，这样更快更有效。
我们在测试的时候会在淡蓝色的地方，小方块从上到下应该是 8 个，我们把这 8 个 256 维的特征串连一个 2048 的特征，用这个特征替代前面输入的图片。
接下来我们对应程序中的网络部分来看一下。

二、看一下主程序的部分（mgn.py）
1.

该部分为引用的相关库
2.

第一句是将我们数据集market-1501的地址赋给root
第二句是关于线程方面的，此处不用管
3.

这个地方开始定义MGN网络，首先我们看到_init_函数，由于MGN网络的前3层和resnet-50的网络前三层基本上是一致的，所以我们MGN网络前三层就可以照搬resnet-50的前三层网络。
4.
在这里插入图片描述
此时我们的输入图片，会进行三组不同的处理方式，这3组不同处理方式的共同点就是都会经过resnet-50的前三层，第一种处理方式我们称为global，代码中的res_g_conv5就是该处理方式的第四层处理，不过该方式的第四层处理和resnet-50无异，因此直接调用。而后2组我们不做下采样，保持第五层特征图和第四层特征图的大小均为24×8，因此作上述处理。
不过该网络的结构并非重点，重点是如何调用该网络，使其进行行人的追踪和识别，因此我们重点研究网络的输出部分。
5.

这里对应上图中提到的最大池化和降维操作
6.

这里对应的部分将得到的8个256维向量经过全连接层，将维度改为识别的类别数，对应损失函数softmax loss。
7.
在这里插入图片描述
zg_p1（1×1×2048）、zg_p2（2×1×2048）、zg_p3（3×1×2048）分别对应淡黄色部分最大池化后的蓝色2048 的向量
z0_p2、z1_p2、z0_p3、z1_p3、z2_p3则分别是P2和P3被分开的部分，对应图中淡黄色部分的其他向量。
8.

该网络的输出由几部分组成，最主要的部分就是网络输出的图片对应的特征图谱predict，这个特征图谱由8个子图谱（淡蓝色部分，分别对应降维后生成的fg_p1, fg_p2, fg_p3, f0_p2, f1_p2, f0_p3, f1_p3, f2_p3）拼接而成，其余的部分（L）则为图中的softmax损失函数。