本文是一篇软件工程论文,在设计软件体系结构的时候,必须考虑有现有系统的兼容性、安全性和可靠性。同时还要考虑系统以后的扩展性和伸缩性。所以有时候必须在多个不同方向的目标中进行决策。(以上内容来自百度百科)今天为大家推荐一篇软件工程论文,供大家参考。
第一章 引言
视觉定位是计算机视觉领域比较热门的话题,其目的在于利用视觉传感器来获得周围环境的视觉信息并进行分析,从而与增量式地图或者全局地图进行对比,最终获得当前环境的位置信息。视觉定位是当前定位技术中的一个重要分支,已被广泛地应用于多个领域,例如,移动机器人、无人驾驶、增强现实、数字化城市等。本章将首先介绍视觉定位的研究背景与意义,然后阐述目前视觉定位技术的研究现状;接着介绍本文视觉定位的研究内容;最后简述整篇文章的章节安排。
1.1 研究背景与意义
获取当前环境的位置信息有着重要的作用。自然界中,动物迁徙、觅食等都需要定位自身的位置。人类社会中,定位是认识世界的关键步骤,对定位技术的研究一直以来都是热门方向之一。随着科学技术的飞速发展,出现了一系列的定位技术,主要包括天文定位、利用里程计和惯导系统进行定位、无线电定位、视觉定位。天文定位[1]是将自然天体设为导航信标,将天体的方位或高度作为观测量,进而确定测量点地理位置及方位基准。然而该技术受到通视条件的限制,无法适用于视野受限的环境中,比如城市环境、室内环境等等。利用里程计和惯导系统[2]进行定位时,测量的结果会随时间而偏移,存在误差累积的问题,另外惯性导航系统的成本较高。因此,该技术不适合进行长时间、大范围的定位应用。无线电定位[3]主要指卫星定位技术。全球定位系统(Global Positioning System,GPS)和我国的北斗系统是其中的代表技术。卫星定位技术是通过测量用户与多颗卫星的距离来计算用户位置的,有着全球性、全天候的优势。正常情况下 GPS 的定位精度大约为 10 米,差分 GPS 的定位精度会有大幅的提高,但是,在城市高楼环境中,卫星信号存在被干扰的情况,另外在特殊时期(如战争)也会存在被屏蔽、攻击等问题。这些因素都会导致卫星定位的失败。因此,无准确 GPS 数据情况下的定位也是目前的研究热点之一。
..........
1.2 研究现状
在过去的几十年里,国内外众多计算机视觉领域内的专家已经对视觉定位技术做了大量的研究工作。这些研究工作根据所给出的定位结果可以被概略分为两大类:一类是增量式视觉定位[5-13],另一类是全局视觉定位[14-33]。两者的主要区别在于前者是在地图未知情况下,从已知的初始位置开始,根据视觉传感器收集的信息进行定位;而后者需要事先建立好的带有位置信息的数据库。这两大类方法各有特色,分别有不同优点和局限性。增量式视觉定位中主要包括基于视觉的同时定位与地图建模(SimultaneousLocalizationandMapping,SLAM),视觉 SLAM 需要根据视觉传感器信息建立地图模型同时完成定位任务。从不确定信息建模方式考虑,这类方法又分为基于滤波[5-7]和基于图优化[8-13]的方法。Davisond 等人[5]首次将扩展卡尔曼滤波引入单目 SLAM 中,能够实时创建稀疏地图,但精确度有限。Strasdat 等人[8]论证了图优化方法相比滤波方法有更大的优势,因此,近年来大多数方法[9-13]都是基于图优化的。比如,2007 年Klein[9]等人首次使用非线性优化代替滤波方法,同时引入了关键帧机制,不必精细地处理每一幅图像,而是把几个关键图像串起来,然后优化其轨迹和地图。目前视觉SLAM 算法在大场景中仍然存在计算量过大、鲁棒性差的局限性。与该技术不同,本文研究的内容为已知地图下,大规模场景(城市环境)中的全局视觉定位。在全局定位方法中根据实现方式不同又分为基于图像表现[14-24]和基于模型的视觉定位[25-33]。两者的差别在于前者更多与图像检索的技术相关联,依赖于图像之间的联系;而后者是充分研究场景中的结构、空间信息,以此特征信息来建立匹配模型,因此,更多地依赖于场景中的结构和空间信息。
..........
第二章 视觉定位技术概述
作为计算机视觉领域的重要研究方向之一,基于视觉的定位技术得到了广泛的关注。过去的几十年里,有众多的视觉定位技术相继被提出。这些算法根据所给出的定位结果分为增量式定位和全局定位。增量式视觉定位是指在地图未知情况下进行定位,主要包括基于视觉的同时定位与建图,其中根据实现方式的不同分为基于滤波和基于图优化的视觉 SLAM 方法。全局定位是指在已知地图的情况下,找到定位点,其中根据实现方式不同又分为基于图像表现(appearance-based)的和基于模型(model-based)的视觉定位。根据视角的差异,基于图像表现的定位技术又分为单视角和多视角的方法。考虑到模型特征的不同,基于模型的技术又分为基于三维和基于二维的方法。整体的分类如图 2-1 所示。本章我们将概述并分析近年来比较经典的定位技术。
2.1 视觉 SLAM
增量式定位是指在初始位姿已知的情况下,机器人利用自身携带的传感器采集的信息得到机器人当前相对于初始位置的变化。同时定位与地图建模(SLAM)是其中的主要研究方向。SLAM 指的是在陌生的场景中,一个移动机器人通过自身携带的传感器对陌生场景进行探索,然后建立周围场景的地图,同时定位出自己在地图中所处的位置。地图创建的好坏对接下来的自主定位、路径规划以及导航的性能起到了决定性的作用。视觉 SLAM 从视觉传感器中获取周围的环境信息并完成后续的任务。目前该技术根据传感器的不同分为:仅使用一个摄像头的单目视觉方法;多目立体视觉方法,其中对双目立体视觉的研究居多;单目相机和红外传感器相结合的方法。另外,由于会受到各种噪声的干扰,机器人的传感器获得的环境观测信息以及自身的运动估计会存在一定的误差,这也使得整个过程中所获得信息具有很大的不确定性。这些不确定性会在 SLAM 运行时不断的传递和积累,因此,建立合适的模型来表达和控制不确定信息是非常重要的问题。根据不确定信息建模的方式,视觉 SLAM 被分为基于滤波[5-7]和基于图优化[8-13]的两种方法。
..........
2.2 基于图像表现的视觉定位技术
基于图像表现的视觉定位根据检索图像与数据库图像视角的差异可分为两类:单视角下视觉定位[14-20]和多视角下视觉定位[21-24]。单视角是指检索图像与数据库图像处在同一视角下,基于单视角的方法通常需要制作加上位置标签的图像数据库,然后运用视觉词袋模型、特征学习模型等图像检索的技术从丰富的数据中匹配到带有位置标签的数据库图像。该方法通常在能够得到大量带有GPS标签图像的城市场景中使用。多视角定位技术是近年来比较热门的研究方向,考虑到很多场景中并没有位置标签,但得益于航拍技术的迅速发展,航拍图像(包括卫星影像、鸟瞰图像)的资源越来越丰富,很多方法探究了在没有位置标签的情况下的基于图像表现的定位。这两种定位技术虽然在有无地面信息的图像上有所区别,但其中采用的方法都是基于图像的信息实现的。使用的特征包括梯度直方图 HOG、SIFT 关键点、卷积神经网络(ConvolutionalNeural Networks, CNN)[59]语义信息等等。本节将分别介绍单视角和多视角下的定位方法。
...........
第三章 街景图像特征提取 ..........17
3.1 问题背景..............17
3.1.1 拟曼哈顿世界假设.........17
3.1.2 直线段检测..........18
3.2 LSD 直线段检测器........19
3.3 多尺度直线段检测.........21
3.4 实验与分析..........28
3.5 本章小结..............36
第四章 航拍图像特征提取 ..........38
4.1 问题背景..............38
4.1.1 角点检测..............38
4.1.2 基于全卷积神经网络的语义分割技术..........40
4.2 DeepLab 模型......41
4.3 基于全卷积神经网络的建筑物角点检测......44
4.4 实验结果与分析.............52
4.4.1 评估指标..............52
4.4.2 角点检测算法测评.........53
4.5 本章小结..............55
第五章 视觉定位 ....56
5.1 问题背景..............56
5.2 航拍图像特征编码.........57
5.3 街景图像特征编码.........58
5.4 特征配准..............62
5.5 实验结果与分析.............67
第五章 视觉定位
基于二维模型的视觉定位需要俯视与侧视两种视角下能够相互对应的特征信息。而我们在第三章提出的街景特征(建筑物垂直物棱角线)和第四章提出的航拍图像特征(建筑物角点)正好存在一一对应的关系。因此,我们将根据这个对应关系提出特征配准的视觉定位技术,本章将围绕这种视觉定位技术进行讨论。首先,离线处理航拍图像,即俯视图部分。使用第四章思想,提取出航拍图像中建筑物的特征角点,对地图上多个定位点周围的可视角点进行 360 维的特征编码,形成基于建筑物角点的离线地理信息数据库;然后,在待定位地点中获取 360 度的街景侧视图像(多张图像进行拼接或者一张全景图像),使用第三章思想进行特征提取并形成 360 维的街景特征编码向量。最后使用余弦相似度匹配两个视角中的特征向量,得到最佳匹配项。又考虑到特征提取过程中可能存在误差,我们在余弦相似度配准的基础上引入了高斯模糊核,从而进行模糊配准。另外,通过仿真实验,对本章给出的基于模型配准的视觉定位技术性能进行测评。
5.1 问题背景
现有的视觉定位技术中,基于模型的方法主要包括:基于三维模型和基于二维模型的方法。基于三维模型的视觉定位需要使用原始数据重建出场景三维模型,计算复杂,不适用于大规模城市环境定位等对实时性、复杂性较高要求的场景中,或者需要现有环境的三维模型,然而大多数的场景中并不存在三维模型。二维模型具有计算简单、数据容易获取等优点,本章的视觉定位技术就是基于二维模型设计的。现实生活中,如果我们在地面上观察到建筑物的一条垂直棱角线,那么,从空中俯瞰这个建筑物时,它的某个角点是与这条垂直棱角线相对应的。前面两章已经分别介绍了侧视图中建筑物垂直棱角线和俯视图中角点的提取方法。但我们需要对这些特征信息进行配准从而达到定位的目的。
........
总结
视觉定位是计算机视觉领域的热门研究课题,其研究内容是利用视觉传感器获取当前位置的视觉信息,从而定位出所在位置。各项热门应用,比如移动机器人、无人驾驶、增强现实、数字化城市等推动了视觉定位的持续发展,本文在分析和研究了现有的视觉定位技术的基础上,给出了视觉定位的整体方案并就其中的两项基础算法进行了深入的研究。主要的研究工作总结如下:
(1) 较详细地概述与分析了目前常用的视觉定位技术。根据给定定位结果的不同,将视觉定位技术分为两大类,即增量式视觉定位和基于全局的视觉定位。其中增量式定位主要指视觉 SLAM。基于全局的视觉定位又根据实现方法分为基于图像表现和基于模型的定位。基于图像表现视觉定位包括单视角和多视角两部分。基于模型的又根据模型的不同分为基于三维模型和基于二维模型的定位方法。
(2) 提出多尺度的直线段检测算法。根据尺度空间的理论,单尺度下对图像进行分析容易丢失本质信息,因此引入尺度空间的理论。首先在尺度空间中分析图像,提取出多个直线段的结果,然后将像素的空间信息加入到余弦相似度中,提出基于图像余弦相似度的最优选择策略,以此策略选出多尺度中的最佳尺度,最后将最佳尺度作为算法的结果。在此基础上进一步分析了现有的垂直棱角线提取方法,应用交互式的提取策略提高了其在复杂环境下的效率和稳定性。仿真实验表明,新算法在检测性能和稳定性上优于当前的主流算法。
(3) 提出航拍图像中建筑物角点特征的提取算法。该算法首先利用已训练好的建筑物区域分割的全卷积神经网络模型得到建筑物区域,现有的角点检测算法是针对图像中一般意义上的角点的,直接用于建筑物的角点提取会有很多的冗余角点。因此,引入语义分割的概念来区分出建筑物和非建筑物区域。然后在建筑物分割图上进行角点检测,从而消除了冗余的角点。该算法有一定的通用性,可以方便地迁移到其他特定角点的检测任务中。仿真实验表明,提出的算法明显优于当前普适性角点检测算法。
..........
参考文献(略)