1 绪论
1.1 研究背景及意义
随着自动驾驶技术的不断发展,不久后,人类将与自动驾驶车辆共享城市交通路网。城市交通实况复杂,尤其是在无信号控制路段,交通参与者之间需要就道路优先通行权进行协商,而行人作为一种数量庞大且弱势的交通参与者,其安全问题是自动驾驶车辆上路所面临的主要挑战。
目前的自动驾驶车辆在与行人争夺道路优先通行权时,遵循安全第一原则[1],只能优先礼让行人,而人车协商道路优先通行权的情况几乎时刻都在发生,且随着城市路网中自动驾驶车辆的不断增多,若仍采用行人优先策略,势必会大大降低城市交通路网的通畅度,进而影响到城市的交通运行效率[2]。
如果能够提前预测行人未来的运动轨迹,就可以根据行人未来轨迹规划自动驾驶车辆的行为(礼让行人/优先通行),从而保证行人安全,并减轻交通拥堵。这一需求对自动驾驶系统中的环境感知技术提出了更高要求。环境感知技术通过传感器对目标进行感知,获取目标的种类、位置和运动轨迹等信息,为车辆的运动规划和决策控制提供信息基础。已有的环境感知传感器方案包括以百度和特斯拉为代表的纯视觉传感器和以 Waymo 为代表的视觉传感器配合激光雷达与毫米波雷达,限于毫米波雷达和激光雷达大大增加了自动驾驶系统的成本,当下更多环境感知技术研究围绕纯视觉传感器展开。
预测行人未来的交通轨迹,具体到纯视觉环境感知,一般需要通过行人检测、行人跟踪和行人轨迹预测这三步来完成,但受限于自动驾驶车辆的复杂行驶场景引入的外界光照变化和背景噪声,以及行人本身作为一种运动的非刚性目标所具备的外形尺度不规则性和运动不确定性,再加上因城市道路环境交通参与者分布密集所造成的行人受障碍物遮挡与行人彼此间相互遮挡,传统模式识别领域已有的技术积累难以满足行人轨迹预测精准化、实时化与智能化的要求。近年来,基于深度学习的视觉环境感知算法表现出了强大的抽象特征学习能力,为城市道路环境下的行人运动分析问题提供了新的解决方案。
..............................
1.2 国内外研究现状
1.2.1 行人检测研究现状
行人检测的目的在于判断图像或视频序列内是否存在行人并对其进行准确定位。目前行人跟踪与行人轨迹预测的主流解决方案均是以目标检测算法给定的包含行人位置和尺寸信息的检测框为输入,一个性能优异的目标检测算法对行人运动分析问题至关重要。目标检测算法主要分为基于背景建模、基于传统机器学习和基于深度学习这三类。
(1)基于背景建模的目标检测
所谓背景建模,即利用目标的运动特性,检测出图像中的变化区域以实现目标提取的过程。这类方法主要涉及帧差法[3]、光流法[4]、背景减除法[5]以及图像匹配方法[6]等。其中图像匹配方法通过模板图像与检测目标进行像素匹配以完成检测,又可细分为基于特征[7]、基于像素灰度[8]、基于角点[9]、基于边缘[10]、基于投影[11]和基于变换域[12]等。背景建模类方法具有计算复杂度低、实时性高的优点,但只能用在摄像头固定的场景,且无法判断目标类别,因此,无法满足自动驾驶领域的行人检测需要在动态背景中识别运动行人的要求。
(2)基于传统机器学习的目标检测
基于传统机器学习的目标检测方法由训练和检测两种模式构成。训练部分指定特征并训练分类器,检测部分输出目标类别结果,其中训练分类器所用的指定特征对这类算法的性能起决定性作用,因此特征提取是该类方法的研究重点。
众多基于传统机器学习的目标检测方法中,最具代表性的是 AdaBoost[13]和支持向量机[14],这两种方法均通过人工设计的特征表达目标,所用特征一般具有较高的可解释性,经典特征有 Haar-like 特征[15]、HOG 特征[16]和 CSS 特征[17]等。
针对非刚性运动目标,Felzenszwalb 在 HOG 基础上提出了 DPM 算法[18]。DPM 基于多组件策略和部件模型策略,采用多实例学习(Multi-Instance Learning)自动确定目标的局部特征。由 Girshcik 改进后的 DPM 算法[19]是传统目标检测领域效果最好的方法,但其精度仍难以满足自动驾驶领域行人检测的需求。
...............................
2 基于卷积神经网络的目标检测
2.1 引言
行人的跟踪与轨迹预测均属于时空类视觉任务,探究的是时间尺度下行人位置状态的持续输出。虽已有部分算法将检测与跟踪任务一体化,但目前主流的解决方案仍依赖于目标检测算法给出的先验框输入。因此,目标检测算法的性能对行人的跟踪和轨迹预测至关重要。此外,考虑到自动驾驶车辆的户外工作环境稳定性差,车载相机在不同时刻捕获的图像往往光照条件不同,且场景变化复杂,使得应用于自动驾驶场景的目标检测模型不仅要具备良好的精度和实时性,还需对光照变化鲁棒,且能适应不同的场景。针对这一需求,本章着重研究当下关注度最高的一阶段目标检测算法,通过扩充场景数据集的方式,训练一个适用于自动驾驶户外场景的目标检测模型。
机械论文怎么写
2.2 目标检测数据集与模型评价标准
对于计算机视觉类任务,合适的数据集对提高算法性能至关重要。为促进目标检测技术的发展,研究人员先后开发了 3 个广受认可的数据集:PASCAL VOC[63],MS COCO[64]和 ImageNet[65]。这三个数据集因其提供精准、丰富且有挑战性的标注数据而成为衡量目标检测算法性能的主要基准。本章的目标检测任务主要涉及 PASCAL VOC 和MS COCO,下面对这两个数据集作一简单介绍。
PASCAL VOC 数据集源于 2005 年到 2012 年期间举办的图像识别竞赛。本文涉及的VOC2007 数据集总共分 4 个大类,车辆、家具用品、动物和人类,具体又可细分为 20 类目标,共有 9963 张样本,包括 2501 张训练样本,2510 张验证样本和 4952 张测试样本,共 24640 个检测框标注。该数据集的挑战性在于视角多样和样本数据不均衡。 MS COCO 数据集适用于检测日常目标,共 91 类样本,因其中 80 个类别涵盖了数据集中的绝大多数样本,另外 11 类的样本数相对较少,故一般分类任务都基于 80 类进行。数据集总计 32.8 万张图片,共 250 万个标注实例,每个类别平均有 2.7 万个实例,平均每张图片包含 3.5 个类别。MS COCO 数据集涵盖了日常生活场景中的大量信息,比 VOC数据集更具挑战性。
PASCAL VOC 和 MS COCO 都提供了对应的指标集合,这些指标用于算法性能的评价和不同算法的性能对比。
PASCAL VOC 常用的模型评价指标是精确率 Precision 和召回率 Recall。精确率表示被分为正类的样本中实际为正类的比例,召回率是覆盖面的度量,表示所有正类样本中被正确分为正类的比例。二者的具体计算涉及二分类混淆矩阵(Confusion Matrix)。
.............................
3 引入全局注意力机制的行人跟踪 ..................................... 25
3.1 引言 ................................................. 25
3.2 多目标跟踪数据集与模型评价标准 .................................. 25
3.3 多目标跟踪网络 Deep SORT ..................................... 26
4 引入状态信息共享的 LSTM 行人轨迹预测 ......................................... 45
4.1 引言 ............................... 45
4.2 轨迹预测数据集及模型评价标准 ......................................... 45
4.3 状态信息共享的 LSTM 轨迹预测模型 ...................................... 46
5 自动驾驶平台实验 ................................. 57
5.1 引言 .................................. 57
5.2 搭建实验平台 ........................... 57
5 自动驾驶平台实验
5.2 搭建实验平台
5.2.1 实验平台及相机安装
本章实验以搭载有 Kinectv2 相机的陆地方舟 EVion 系列纯电动汽车为实验平台,采集校园道路场景数据,将相机捕获的行车视频作为实验数据源,实验平台如图 5-1(a)所示。为提升采集的图像的质量,避免挡风玻璃对相机成像造成影响,本次实验将相机安装于车外,具体的安装位置如图 5-1(b)所示。
机械论文参考
...........................
6 结论与展望
6.1 结论
本文面向自动驾驶技术研究人车混流情况下的视觉环境感知任务。以城市道路环境的行人未来轨迹预测为研究目标,从行人检测、行人跟踪和行人轨迹预测三个方面展开研究,主要研究成果与结论如下:
一、本文基于卷积神经网络 Yolov3 搭建了一种一阶段目标检测模型。
(1)目标检测模型建立阶段:使用全卷积神经网络 darknet53 将输入图像转换成固定维度的特征向量,基于位置误差、置信度误差和分类误差构建损失函数,以保证模型输出的特征向量能够表达图像中目标的位置和标签信息,使用 K-means 算法聚类 VOC2007 数据集,得到大中小 3 种共 9 个先验框尺寸代替人工给定的检测框尺寸以提升目标检测框普适性。
(2)目标检测模型训练阶段:以 MS COCO 数据集为基础,使用白天场景的行人检测数据集 INRIA person 和夜间场景的行人检测数据集 ExDark 扩充训练样本,在本地实验环境进行了训练,最终得到了本文的目标检测模型。
(3)目标检测模型评价阶段:以 CUHK square、CPCS 和 KITTI 数据集为白天场景基准,以 ExDark 和 NightOwls 数据集为夜间场景基准,测试了本文目标检测模型应对外界光照条件变化和场景变化的能力,并对精度和实时性做了评估。
本文搭建的目标检测模型在三个白天场景的测试基准上的平均 mAP 值能达到 0.78,在两个夜间场景的测试基准上的平均 mAP 能够达到 0.67,5 个测试集上的平均 FPS 能够达到 25 帧/s,精度和实时性较高,且具有良好的光照变化鲁棒性和场景泛化性,能够较好地适应城市道路环境的行人检测任务。
参考文献(略)