1 绪论
1.1 研究背景及意义
1.1.1研究背景
目标检测是计算机视觉领域和数字图像领域中的研究热点,广泛应用于多个领域中,如支持机器人导航、智能视频分析、工业生产检查等[1],通过数字计算机的发展,其影响人们的生产生活方方面面,可以高效快速地完成各种特定任务,在提高效率的同时,减少了开支。在数字计算机技术的良好发展状态下,一方面数字计算机可以快捷处理数值计算,另一方面,更可以完善人类视觉本身存在的客观短板,利用计算机对视觉信息进行有效处理。数字计算机的科技发展和计算机视觉这一学科是互相促进对方发展状态,形成双赢的局面。
计算机视觉的研究目的是使计算机能够对真实世界中确实存在实物的客观信息起到感知效果[2],比如,感知形状、位置、颜色、动作等,并可以对该实物进行描述、分类、理解、存储,使得该技术成为当今的热门研究课题之一。目标检测技术在数字图像辨别、运动行人检测、多场景目标分析等诸多方面均具有普适应用,提升目标检测的速度与精度具有较强的工程价值和意义,围绕这方面内容国内外开展了相关的研究,并将研究成果运用到工程项目中,取得了一定成果。特别是近年来人工智能与深度学习的发展,为目标检测与跟踪识别的研究工作带来了新的力量。
运动目标检测跟踪是一种视频分析技术,视频中目标跟踪方法的研究应用是计算机视觉学科的其中重要分支,日益广泛地被应用到国家科防建设、航空航天领域、医疗卫生健康以及其它多样惠民惠生领域中[3]。目标检测跟踪技术具有必要的研究价值和深刻的应用前景。由于真实环境的多变复杂化,该技术在实际的工程使用过程中仍存在需要被克服的问题。
.......................
1.2 国内外研究现状
1.2.1 卷积神经网络研究现状
深度学习(Deep Learning)是机器学习(Machine Learning)中的其中一个研究分支,深度学习中的神经网络( Neural Network)系统是深度学习领域中的重要分支。1943 年,McC ulloch 和 Pitts 提出了人工神经网络[10],在提出的基础上,运用数学建立模型的方法给当时提出的神经网络构建了理论态模型。在这之后,国内外众多研究者们着手神经网络这一新型研究发展方向,经过探究发现,能够得出研究成果。接着心理学家 Olding Hebb 在 1949 年针对人工神经网络提出了对应其的学习规范,并给出了神经元的数学模型。
1957 年,人工智能学者 Frank Rosenblatt 提出了感知器(Perceptron)这样一个新的结构较为简单的网络模型,感知器被称为是最早的人工神经网络[11];紧接着 Mark I 感知器模型被搭建,这次开创性的进步打开了计算机基于人工神经网络上向着硬件系统迈向发展的新状态。感知器结构的简单在于其结构中仅有 1 层神经元,采用的激活函数是阈值型的,并且这属于前馈人工神经网络结构。在对网络模型进行权重参数的训练之后,感知器能够承担一组输入的运算,并经过网络模型可以产生 0 或 1 的输出结果,由此方面可以达到对输入对象进行分类处理的训练结果。比较不足的是,面对现实中繁多的类别,感知器的一层网络结构导致其分类能力只能够处理类似异或这样的线性问题,另外一些线性不可分的问题对感知器来说是不能突破的难点[12]。
..........................
2 目标检测算
2.1 传统的目标检测算法
传统的目标检测方法可分为两个子步骤:训练和预测[28],如图 2.1 所示。训练主要是用来得到分类器,比如 SVM。预测是将已经训练好的分类器对图像中的滑动窗口进行特征提取,再分类操作,得到最终的检测输出结果。具体步骤可大致总结如下:(1)采用滑动窗口进行遍历搜索,使用不同大小的滑动窗口在给定图片上建立多个候选框;(2)经过特征提取,得到每个候选框的特征向量;(3)利用分类器对分类特征向量进行分类;(4)利用相关算法消除冗余候选框。
图 2.1 传统目标检测过程
............................
2.2 基于 CNN 的目标检测
随着时代的发展,传统的目标检测效率和精度逐渐落后于人们的需求。传统的目标检测方法大多基于人工设计的特征精度,导致其鲁棒性较差。随着计算机性能瓶颈的突破,深度学习技术得到快速发展。目标检测在深度学习阶段,使用卷积神经网络进行特征提取[34],计算机硬件也在不断发展,GPU 的进步很大程度上提高了计算机的计算性能,以上各种因素都加快了目标检测的发展脚步。
2.2.1 目标检测
卷积神经网络在特征提取上有明显的进步,相比于传统方法,获得的特征图包含有更丰富的语义信息,特征图的进步也推动着目标跟踪的发展[35]。 这类方法主要分为两类:一类是分类问题,先生成候选框,在依据卷积神经网络对候选框进行分类;第二类属于回归问题,回归问题针对的是目标的定位框。深度学习被用于目标检测,在可以将这个时期的研究分为两个阶段分别是:(1)One-Stage Detection,在这个阶段中,特征提取、分类定位是由同一个网络解决,在这个阶段的代表检测器有YOLO[36]、SSD[37]和 CornerNet。(2)Two-Stage Detection,在这个阶段中,特征提取、分类定位是由不同的网络实现。在特征提取中由算法生成候选区域,候选区域选定的内容是可能目标所在的区域。在分类定位中算法会生成定位框和计算偏差,利用偏差对定位框进行精修,实现分类定位,在这个阶段的代表检测器有 R-CNN[38],Fast R-CNN,Faster R-CNN[39]等。其中 Faster R-CNN 是经过前两者的逐步改进而形成,引入RPN(RegionProposal Network)算法提取预选框,同时选择了 ROI Pooling 对后续模型训练网络输入样本进行归一化,得到大小相同的输入样本。
.....................
3 相关理论及技术..................23
3.1 图像特征..................23
3.2 SSD 网络..................23
4 双微 SSD 模型................33
4.1 模块架构.................33
4.2 模块剖析..............33
5 实验评估与性能分析....................45
5.1 实验环境...................45
5.2 数据集介绍..................45
5 实验评估与性能分析
5.1 实验环境
本实验的视频数据集来源于现实校园内实际拍摄采集,主要辅助设备是华为 P30 智能手机原摄像机和小米 XMZPG01YM 型号支架式自拍杆。为了评估该方法是否能准确对行人目标实行检测跟踪,能否完成轨迹预测任务,在以下平台上进行实验:Inter Core i5-8500,RAM 8GB,操作系统 Windows10;远程操控在 Inter Core i7,RAM 64GB,NVIDIA Geforce RTX 2080 Ti GPU,操作系统 Windows10。
在计算机视觉领域中的 PASCAL VOC(The PASCAL Visual Object Classes)赛事是一个世界级挑战赛。VOC(Visual Object Classes)数据集是一套具有检测和识别标准化的开源数据集。目前很多专业测试都使用 VOC 数据集,该数据集不但规模大质量高,且它同时满足对检测要求的专业性以及对深度学习的需求,用于构建和评估用于图像分类、目标检测和对象分割的算法。VOC 挑战赛起源于 2005 年,终止于 2012 年。在 VOC 数据集体系中,目前应用最广的是在 2007 年推出的 VOC2007 数据集版本和在 2012 年推出的 VOC2012 数据集版本。
VOC 数据集分为三部分:VOCtest_06-Nov-2007(测试集)、VOCtrainval_06-Nov-2007(训练集和测试集)、VOCtrainval_11-May-2012(训练集和测试集)。其中,在 VOC2007数据集中,一共有 9963 个 xml 文件,其中信息是各自对应图片的标注,意味着 VOC2007全部的数据集图片有 9963 张,训练集 5011 张,测试集 4952 张,文件夹中部分图展示如图 5.1 所示。
图 5.1 VOC 数据集部分图
6 论文总结及展望
6.1 论文总结
运动目标检测跟踪技术涉及人工智能、深度学习以及图像处理方面的内容,其在智能交通、医疗健康、机器辅助、军事航空等众多领域有着非常普适的应用。面对这样一个饱含前景的方向,本论文主要着手基于深度学习的运动目标检测跟踪及预测工作中。基于神经网络的目标检测跟踪算法受到广大研究者的关注。本文以包含 20 类目标对象的 VOC 数据集和拍摄的视频集为检测模型的实验对象,以 SSD 网络为网络结构原型,设计并完成多组实验对 SSD 网络实行改进,并使用实验评估指标对实验模型的效能进行了一系列对比分析并进行总结。论文总结如下:
(1)在目标检测研究中,结合当前基于深度学习的目标检测建模技术,查阅大量参考文献及丰富的网络博客,归纳分析了当前各技术的优缺点,选取了 SSD 神经网络为基础来完成本论文的运动目标检测跟踪任务。首先使用 VOC 数据集训练了 SSD 网络,将之运用于实际拍摄场景视频中,出现误检,随即对 SSD 网络进行改进,修改其网络结构,经过多次结构调整及变参实验,最终设计确定了以名为双微 SSD 为网络基础的目标检测跟踪模型,采用双微核相向处理模式,并且以之为网络结构的运动目标检测跟踪模型在对视频中运动行人的检测中未出现误检,并且保证其检测跟踪的稳定性。
(2)比较了 Faster R-CNN、DFF、SSD、YOLO、双微 SSD 网络模型在 VOC 数据集上的实验结果并进行分析。Faster R-CNN 检测准确率较高,但是其检测速度不够出色。YOLO 检测速度较好,但是其检测准确率不够理想。DFF 不论是在检测准确率方面还是其检测速度方面都表现不太乐观。本论文的网络原型 SSD 网络和本论文改进之后的双微SSD网络在检测准确率和检测速度方面都是表现突出。本文的检测跟踪模型SSD-21M相对来说,在检测速度相差不明显的情况下,检测准确率的提升便显得格外有意义。同时总结了实验对数据集中各类别的实验结果 AP 值,考虑到本论文对运动目标的检测跟踪,其中改进之后的网络在 person 类别的 AP 值有了明显提高。综合实验结果证明,本论文对 SSD 网络的改进是可靠有效的。
参考文献(略)