一、视频识别几大问题

未修剪视频分类(Untrimmed Video Classification)：通过对输入的长视频进行全局分析，然后软分类到多个类别
修剪视频识别(Trimmed Action Recognition)：给出一段只包含一个动作的修剪视频，要求给视频分类
时序行为提名(Temporal Action Proposal)：从长视频中找出可能含有动作的视频段
时序行为定位(Temporal Action Localization)：从视频中找到可能存在行为的视频段，并且给视频段分类
密集行为描述(Dense-Captioning Events)：将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后，对该视频段进行行为描述

2、常见的解决方案

iDT

iDT算法框架主要包括：密集采样特征点，特征轨迹跟踪和基于轨迹的特征提取三个部分。
光流：在时间间隔很小的情况下，视频像素位移
特征提取:通过网格划分的方式在多尺度图像中分别密集采样特征点。通过计算特征点临域内的光流中值得到特征点运动方向。
在这里插入图片描述

编码:使用了HOF，HOG和MBH三种特征描述光流
HOG：灰度图像梯度直方图，HOG特征的长度为2238=96。

HOF：光流的直方图，8+1个bin，前8个和HOG相同，1是用于统计光流幅度小于某个阈值的像素。HOG特征的长度为2239=108。
MBH：光流梯度直方图，在光流图像上计算HOG。光流图像包括x和y方向，所以MBH总的特征长度为2*96=192。

最后进行特征的归一化，DT算法中对HOG，HOF和MBH均使用L2范数进行归一化。

分类器:SVM

对于多分类：
评价指标：mAP、0-1 exact match、Macro-F1等
训练方法：
1）one hot encoding
用一系列的特征去拟合词汇，降低训练所需要的数据量。
2）CNN+RNN（CNN+LSTM）

Two-Stream

一部分处理RGB，一部分处理光流，最后联合训练再分类。
在这里插入图片描述

TSN

这是在Two-Stream上的改进，Two-Stream最大的问题是不能对长时间的视频进行建模，只能对连续几帧视频提取。TSN先将视频分成K个部分，然后从每个部分中随机的选出一个短的片段，然后对这个片段应用上述的two-stream方法，最后对于多个片段上提取到的特征做一个融合。下图是网络的结构图。
在这里插入图片描述