视频识别的基础概念[通俗易懂]

视频识别的基础概念[通俗易懂]视频识别一、视频识别几大问题2、常见的解决方案iDTTwo-StreamTSNC3DTDDRNNRPAN一、视频识别几大问题未修剪视频分类(UntrimmedVideoClassification):通过对输入的长视频进行全局分析,然后软分类到多个类别修剪视频识别(TrimmedActionRecognition):给出一段只包含一个动作的修剪视频,要求给视频分类时序行为提名(TemporalActionProposal):从长视频中找出可能含有动作的视频段时序行为定位(Tempor

大家好,又见面了,我是你们的朋友全栈君。

一、视频识别几大问题

  1. 未修剪视频分类(Untrimmed Video Classification):通过对输入的长视频进行全局分析,然后软分类到多个类别
  2. 修剪视频识别(Trimmed Action Recognition):给出一段只包含一个动作的修剪视频,要求给视频分类
  3. 时序行为提名(Temporal Action Proposal):从长视频中找出可能含有动作的视频段
  4. 时序行为定位(Temporal Action Localization):从视频中找到可能存在行为的视频段,并且给视频段分类
  5. 密集行为描述(Dense-Captioning Events):将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后,对该视频段进行行为描述

2、常见的解决方案

iDT

iDT算法框架主要包括:密集采样特征点,特征轨迹跟踪和基于轨迹的特征提取三个部分。
光流:在时间间隔很小的情况下,视频像素位移
特征提取:通过网格划分的方式在多尺度图像中分别密集采样特征点。通过计算特征点临域内的光流中值得到特征点运动方向。
在这里插入图片描述

编码:使用了HOF,HOG和MBH三种特征描述光流
HOG:灰度图像梯度直方图,HOG特征的长度为2238=96。
在这里插入图片描述
HOF:光流的直方图,8+1个bin,前8个和HOG相同,1是用于统计光流幅度小于某个阈值的像素。HOG特征的长度为2
239=108。
MBH:光流梯度直方图,在光流图像上计算HOG。光流图像包括x和y方向,所以MBH总的特征长度为2*96=192。

最后进行特征的归一化,DT算法中对HOG,HOF和MBH均使用L2范数进行归一化。

分类器:SVM

对于多分类:
评价指标:mAP、0-1 exact match、Macro-F1等
训练方法:
1)one hot encoding
用一系列的特征去拟合词汇,降低训练所需要的数据量。
2)CNN+RNN(CNN+LSTM)

Two-Stream

一部分处理RGB,一部分处理光流,最后联合训练再分类。
在这里插入图片描述

TSN

这是在Two-Stream上的改进,Two-Stream最大的问题是不能对长时间的视频进行建模,只能对连续几帧视频提取。TSN先将视频分成K个部分,然后从每个部分中随机的选出一个短的片段,然后对这个片段应用上述的two-stream方法,最后对于多个片段上提取到的特征做一个融合。下图是网络的结构图。
在这里插入图片描述

C3D

这个算法比Two-Stream精度低,但是快。网络结构更加简单。视频是三维,可以使用三维卷积核。
在这里插入图片描述

TDD

TDD特征结合了传统方法的轨迹跟踪和深度学习方法的卷积特征提取。
在这里插入图片描述

RNN

通过RNN可以处理序列问题。

RPAN

分为三大部分

  • 特征生成部分:用Two-Stream的方法生成
  • 姿态注意机制
  • LSTM时序处理网络

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/130621.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • matlab 调用dos命令和文件操作

    第一、利用!直接调用,简单方便,可以带操作对象:!delA.bat第二、调用system函数或者dos函数,既可以实现功能,又返回参数,能检查执行情况,方便后面程序的开发,推荐这个[status

    2021年12月24日
  • pip如何卸载库_查看python版本的命令是

    pip如何卸载库_查看python版本的命令是pipfreeze>allpackages.txtpipuninstall-rallpackages.txt-y

    2022年10月10日
  • 最小二乘法进行线性回归_最小二乘法简单例题

    最小二乘法进行线性回归_最小二乘法简单例题最小二乘法概述对于一元线性回归模型,假设从总体中获取了n组观察值(x1,y1)(x1,y1)(x_1,y_1),(x2,y2)(x2,y2)(x_2,y_2),…,(xn,yn)(xn,yn)(x_n,y_n)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为:使总的拟…

  • python怎么实现检验_python实现KMO检验和Bartlett’s球形检验

    python怎么实现检验_python实现KMO检验和Bartlett’s球形检验1.KMOKMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。使用说明:Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于…

  • ireport教程_linear predictor

    ireport教程_linear predictor三元元算($F{username}.equals(“a”))?”它是a”:”它不是a”

  • 编程打开控制面板及各项

    编程打开控制面板及各项程序打组件服务C:\WINDOWS\system32\Com\comexp.msc注销程序路径C:\WINDOWS\system32\logoff.exe智能ABC的用户词库位置C:\DocumentsandSettings\用户名\ApplicationData\Microsoft\IME\winabc造字程序的路径C:\WINDOWS\system32\eudcedit.exe语言栏显示…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号