初识行为识别

大家好，又见面了，我是你们的朋友全栈君。

随着互联网的不断发展，各种应用的不断推广。数据无论从存储，格式，形式，类型等方面都趋向于多样化，丰富化，指数化。数据就是价值，为何这么说呢？在机器学习，深度学习推动下，训练数据需求很大。对于分类模型，训练数据越多，分类器的准确度会在一定程度上更精确。行为识别可以说就是在这基础上演变出来的一个研究分支。那么什么是行为识别呢？我的理解是这样的，比如对于某个图片或者视频中的某个信息进行捕获，我们可以使用特征工程进行特征提取，这些特征提取说白了就是基于对图片局部中像素进行操作，对于视频，我们可以将视频按帧分解成图片，常用工具有ffmpeg，也可以使用python中基于视频分解图片的模块包自行通过调用处理。对于得到的图片，我们可以对其进行特征提取，比如常用的特征提取方法有Haar，Hog等，它们在结合具体的分类器比如adaboost，svm等可以对图片中相关特征精确提取达到一定准确度。有了特征之后，我们可以使用机器学习中分类器或者深度学习中的分类器利用已经得到特征进行训练，之后对未知图片进行预测，这也就达到了行为识别的目的。
行为识别存在问题？由于受到视频背景混乱、闭塞、视点变化等原因，对行动的准确识别是一项极具挑战性的任务，大多数现有方法对拍摄视频的环境做出某些假设。然而，这种假设在现实环境中很少成立。此外，大多数在这些方法都遵循传统的模式模式识别，包括两个步骤，第一步从原始视频中计算并提取特征，第二步通过该特征训练分类器。在现实世界中在场景中，很少知道哪些特征对手头的任务很重要，因为特征的选择是高度依赖问题。特别是对于人类行为识别。
行为识别的发展从哪开始呀？关于行为识别最早开始于19世纪中后期，科学家首先在动物行为方面进行了机械学研究[1]。但是由于当时的计算机不能处理大规模的数据计算，行为识别的研究也没有得到重视。直到20年代末期，关于行为识别的研究也是寥寥可数，当时的研究人员通过采集大量的实验数据进行分析和研究，训练并构建模型，然后匹配模型和行为序列，最终达到行为理解的目的。由于计算量的规模性，当时的研究只能局限于分析简单的行为运动。进入本世纪后，世界上多家名校和研究机构都在行为识别进行了深入研究和探索[2]。在工业界，行为识别可以说占据了普遍优势，如行程规划，用户社交行为，人员调度等领域已经出现了行为识别的相关应用。行为识别和模式识别比较火热的研究话题。
行为识别的的发展如何呢？目前行为识别的主要有两大流派:Two-Stream和C3D。Two-Stream的思想是是基于视频帧图像，其表示的是静态信息和对视频序列中每两帧计算密集光流得到的光流序列，该序列表示的是时序信息，然后利用相关深度网络对它们分别训练出一个模型，在各自网络产生结果后，对结果进行融合；它能有效的从一张图片中识别出行为的类别。利用双流CNN网络分别基于RGB图像和由视频得到的光流序列各自训练一个模型，这两个模型分别对动作进行判断，最后将两这训练结果进行融合，在UCF-101数据库上准确率达到88%，在HMDB51行为数据库达到59.4%[3]。将双流网络改成VGG-16网络，VGG-16卷积神经网络探索了深度与其性能之间的关系，通过反复堆叠33的小型卷积核和22的最大池化层，层数为16层，经实验提高了准确率[4]。C3D对CNN中的卷积(convolution)操作和池化(pooling)操作进行改良，其采用3D卷积核，在时间和空间维度上进行操作，能捕捉到视频流中的运动信息。一个用于人类行为识别的3D CNN架构，该体系结构由1个硬接线层、3个卷积层、2个子采样层和1个全连接层组成，以7帧尺寸为60×40帧作为3D CNN模型的输入。采用不同的卷积规模，最终在TRECVID DATA上的精准率达到了71.37%[5]。
可能对于深入的研究可能还有需要多去研究相关论文，多去动手上机实验。谢谢！

参考文献
[1]陈晓峰. 电子商务安全性理论与技术研究[D]. 西安: 西安电子科技大学, 2003.
[2]SEOH J, MILANFAR P. Action recognition from one example[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 867-882.
[3]Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[J]. 2014.
[4]Feichtenhofer, C. , Pinz, A. , & Zisserman, A. . (2016). Convolutional two-stream network fusion for video action recognition.
[5]Ji, S. , Xu, W. , Yang, M. , & Yu, K. . (2013). 3d convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1), 221-231.

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/152029.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...