本文是一篇软件工程论文,本文对人体异常动作检测方法的研究主要基于双流时空残差网络,在网络模型的基础上对特征提取能力、实时处理能力以及从缺少充分标注的数据集中进行学习的能力三个方面进行提升和改进,同时对进一步提升网络模型的运行时性能与精度做了研究。
第一章绪论
1.1研究背景及意义
在科学技术推动社会飞速发展的大环境下,居民的安全防范意识不断加强,因而当频发的公共安全问题见诸于新闻媒体越来越多的报道时,社会各界公众对这类问题也愈发广泛地关注。以随处可见的录像和监控等系统为主要部分构成的安防工程得到迅速发展,如今,安防产品早已遍布各大城市的交通道路、标志建筑景点、市民公园和高校园区等等具有人员集中和频繁流动特点的重要公共场所,同时,安全监控系统在家居方面的应用同样也是现代生活中安防系统不可或缺的组成部分。无论是家庭中的智能生活助理领域,还是公共场所的智能安全监控领域,从监控录像中都能够提取出许多关键有效的信息。但是,提取信息的过程需要耗费有关的工作人员大量的时间和精力来完成。另一方面,在各种实际场合的应用情况中,工作人员经常要面对海量的监控数据,使得人工地分析视频中的异常行为信息的效率和准确率还不能达到理想水平。因此,实现视频监控系统的智能化,让计算机完成智能检测异常动作的任务,快速提取出关键信息,并及时传递给工作人员,可以有效提高视频监控系统的检测效率和准确率,进而实现异常动作检测的实时性,充分保障公众活动的公共安全,减少处理公共安全问题的响应时间。
互联网数据中心的建设为海量数据的存储提供了必需条件。从视频的质量看,提高视频的分辨率、刷新率和帧率已成为主流需求,视频监控技术不断沿智能化方向发展。公共安防系统能够从高质量的视频数据中,提取出更多有效信息,提高检测精度。不论是交通安全、案件侦查和金融商业等传统领域,还是无人驾驶、机器人技术和虚拟现实等新兴领域,更加智能化的视频分析技术都在得到广泛的应用。
............................
1.2国内外研究现状
1.2.1目标检测领域研究现状
目标检测网络模型的任务是对图像中的现有目标进行定位和分类,并用矩形包围盒进行标注,以显示目标物体的位置,如图1-1所示。目标检测算法主要可以分为两种,一种算法先产生多个候选区域,然后对不同类别的物体进行分类;另一种算法则直接获得物体的分类结果和位置。
SPP-Net[1]模型对全连接层仅接收固定大小的输入图像而产生的部分目标物体可能裁切或丢失的问题进行了探究,采用了空间金字塔匹配(SPM)方法,通过细粒度到粗粒度的尺寸变换,将图像划分成多个分区,并对量化局部特征聚集成中间层表示。同时,由于特征图能够很好的反映局部特征及其空间位置,SPP-Net模型重新构建了conv5网络层的特征图尺寸,将所有大小尺寸的候选区域映射为长度固定的一组特征向量。模型的最后一层添加了空间金字塔采样层,能够在相应的特征图尺寸中给出不同位置的预测,通过权值共享提高了检测速度,同时能获得更好的检测结果。
软件工程论文怎么写
针对候选区域的形状变换可能丢失用于辨别特定目标物体信息的问题,而在卷积运算中添加区域采样层会破坏目标检测中的转换不变性,基于候选区域的全卷积网络[2](R-FCN)移除了基于候选区域的目标检测网络模型中通常采用的逐个运算感兴趣区域的子网络,并使用全卷积网络用以提取特征。
.........................
第二章基于残差网络的目标检测方法
2.1残差网络
神经网络是一种经典的机器学习模型,其概念和思想可追溯至20世纪40年代提出的人工神经网络(ANN)。神经网络模型通过学习与训练若干个维度的特征,在二分类以及多分类问题上,以拟合任意形式的非线性函数的方式完成适应特定问题的求解的过程,因此对于一般问题具有良好的预测性能和准确率。
在神经网络模型中,神经元是组成网络的一个最基本单位。整个网络由若干个神经元按照层序组织构成一个广泛而并行的、具有强大适应能力的、层级间互相连通的网络,因此这种模型被认为能够模拟生物体中的真实神经系统对外界事件的应答与互动机制。
当神经网络的层数逐渐增加时,模型对特定问题具有的适应与拟合能力也在相应地增强,可以用于求解更为复杂和棘手的预测分类问题。在2012年的ImageNet图像分类挑战赛中,共包含8个神经单元层的网络架构AlexNet[43]取得了令人瞩目的冠军。这种包含了多个神经层的神经网络后来就被称作深度网络。以使用深度神经网络为主要研究内容的所谓深度学习领域,在LeNet[44]被提出并经过多次迭代后,再度成为了炙手的研究热点。
类似AlexNet这种结构中包含了卷积层的深度神经网络,通常被称作卷积神经网络。卷积层的引入被实践证明很适合用于提取图像的抽象特征,这些抽象特征在网络的低层相对具有更简单而具体的结构。随着特征数据在网络中自下向上流动,网络的高层可以通过来自低层的特征构造出更为抽象和复杂的特征。
2016年,为了回答卷积神经网络随着层数增加地越来越深,拟合效果却没有像预想中的越来越好的这一难题,残差连接与残差网络[45]的概念被提出。残差网络一定程度上避免了神经网络层数不断递增带来的模型性能不与模型深度成正比的问题,这一问题通常被称作网络退化。
..........................
2.2目标检测网络
2.2.1 R-CNN
目标检测任务的挑战在于对一张图像中的多个物体作出位置预测和分类预测,为完成这一任务,提出的模型主要采用融合低层图像具体特征与高层上下文抽象语义的集成算法。随着CNN的不断发展,提出了基于候选区域的深度卷积网络[50](R-CNN),它是一种多阶段网络模型。
R-CNN在输入图像中选定一个局部区域,使用深度卷积网络从这个局部区域中提取物体的特征,然后使用分类器判断该物体是否为感兴趣的目标类型,整体工作流程如图2-12所示。在物体定位过程中,一种滑动窗口算法会平滑、均匀地获取局部区域,但是采用这种方法的网络模型中的高层网络层的感受野尺寸很大,缺少了定位物体所需的精度。另一种算法在整个图像中生成若干个搜索区域,对每个区域进行特征提取和分类判断,这种算法称为选择性搜索,区域选择的性能和质量都好于传统的滑动窗口搜索算法。每一张图像大约会生成1000至2000个初始的局部区域。算法以初始的局部区域作为输入,将所有的边界框加入到候选区域列表,并逐步基于相似度合并这些区域,进而得到一些更大的区域。合并后的区域被视为一个新的整体,不停重复迭代过程,在候选列表中以自底向上的方式创建变得越来越大的候选区域。区域间相似度的计算主要是依据颜色通道、纹理分布、尺寸大小和形状交叠4个特征,再通过互不相同的权重相加得到。
........................
第三章基于双流时空网络的动作识别方法.............................32
3.1双流卷积网络....................................32
3.2双流时空残差网络.............................34
第四章结合多实例学习的异常动作识别............................40
4.1视频实例切分...............................................40
4.2多实例学习方法........................................41
第五章人体异常动作识别系统设计与实现........................48
5.1实验环境平台....................................48
5.2网络模型训练超参数...........................49
第五章人体异常动作识别系统设计与实现
5.1实验环境
平台本文采用的实验环境平台,包含操作系统环境、内核信息、处理器、图形处理器和内存信息等,以及深度学习的网络搭建高层框架与加速计算底层框架的配置设置、所使用的开源库和技术框架的配置细节。每项环境名称都给出了对应的版本具体信息,如表5-1所示。
软件工程论文参考
...................................
第六章结论与展望
6.1主要结论
视频中的人体异常动作检测是一个学习和推理过程,从现实世界的监控录像视频片段检测异常事件。本文结合监控视频中异常事件种类多样而无法提前预测、出现频率远低于正常事件的情形,依据时序范围维度、空间位置维度、人体目标特征和人体动作特征,在监控视频中识别并标注异常人体动作。在实验过程中,本文使用UCF-Crime数据集完成训练、验证和测试任务,评估网络模型检测异常事件的性能。
本文对人体异常动作检测方法的研究主要基于双流时空残差网络,在网络模型的基础上对特征提取能力、实时处理能力以及从缺少充分标注的数据集中进行学习的能力三个方面进行提升和改进,同时对进一步提升网络模型的运行时性能与精度做了研究。本文所述的检测方法分为人体目标检测、人体动作识别和异常得分学习三个模型,在第二章至第四章中分别对每个网络模型给出了详细的描述说明。
识别人体异常动作首先需要在视频中对人体目标的空间信息作出定位。本文提出基于残差网络的目标检测方法,采用基于候选区域的卷积网络作为目标检测任务的网络架构,使用特征金字塔网络作为多尺度特征图的产生网络,将基于候选区域的卷积网络与特征金字塔网络进行横向连接,通过这种网络架构完成视频中的人体目标检测任务,对多种不同分辨率和尺寸大小的目标物体具有良好的运行时性能和检测精度。
参考文献(略)