1 绪论
1.1 论文研究背景及意义
当今社会,人工智能技术引领时代发展的潮流,其应用场景十分广泛,包括教育、交通、医疗和公共安全等领域。越来越多的行业借助人工智能技术实现自动化,从而节省劳动力,大大提高生产效率。而计算机视觉技术[1]是人工智能得以快速发展的强大驱动力,其目的在于“教”会计算机如何去“看”世界。人类本身是被赋予了视觉的生物,可通过眼睛认知外界事物。而计算机视觉则是通过计算机等相关设备对生物视觉进行的模拟,其通过对采集到的图像数据或者视频数据进行处理,从而得到相应场景的三维信息,以此来了解外部环境。在计算机视觉领域,主要研究方向为:图像分类、语义分割、目标检测和人脸识别等,其中图像语义分割[2]是计算机视觉领域的主要核心问题,也是近年来研究热点方向之一。
图像语义分割是图像理解的基石性技术[3]。众所周知,图像是由许多的像素组成,而图像语义分割的任务就是根据像素所表达的语义含义来进行分组,将同属于一个物体类别的像素用相同的颜色标记出来。如图 1.1 中所示,左图为语义分割原始图像,右边为三分类的语义分割结果图像,其中,三分类包括:“人”、“马”和“背景”。
............................
图像分割的发展经历了漫长的道路,本小节将从传统图像分割方法和基于深度学习的分割方法两方面进行叙述。
(1) 传统图像分割方法研究现状
传统的图像分割指根据图像自身特征(如纹理、灰度、几何形状等),将图像划分为若干个不相交子集,使用不同的颜色或标记来表示不同区域,从而使得同一子集中的像素具有一定的特征相似或一致性,不同子集内的像素具有明显的特征差异性。早期计算机的计算能力有限,一开始只能处理一些灰度图,后来随着分割方法的不断改进,才可以处理 RGB 图像。传统图像分割方法主要是通过提取图像的低级特征来进行分割,其中基于传统的分割方法可以分为以下四类:
以区域为基础的图像分割技术,可以分为区域生长法[6]和区域分裂与合并法[7]。其中,区域生长法需要用户事先定义好生长准则,将像素或子区域逐步聚合成更大区域,从而达到分割的目的。其基本思想是首先由用户指定种子点开始,随后设计合并准则,通过不断迭代,将具有特征相似性的像素或区域合并,从而形成全新生长点,直至没有满足条件的区域可以合并,最终得到分割目标。生长点与相邻区域的相似性判断依据可以是灰度值、纹理和颜色等多种图像信息。该方法的缺点是需要人为选定种子点,且分割速度较慢,对噪声较敏感。
区域分裂与合并法是由整副图像开始,将其拆分为一系列不相交的子集,而后通过不断合并和拆分,直至满足终止条件,从而得到分割结果。该方法与区域生长法相比,可以分割较为复杂的场景图像,但其计算量大,算法较为复杂,且分裂时可能破坏区域的边界
........................
2 图像语义分割相关技术
2.1 卷积神经网络概述
卷积神经网络通常由卷积层[27]、激活层[28]、池化层[29]和全连接层[30]构成,每一层的作用各不相同,本小节将对各层的功能进行详细介绍。
2.1.1 卷积层介绍
神经网络中卷积层的主要作用为提取图像特征,浅层的卷积操作可以提取一些图像中低级的特征,如边缘和线条等结构,深层的卷积可以从图像的低级特征中迭代提取出较为复杂的特征。卷积操作过程如图 2.2 所示,其使用一定大小的卷积核按固定步长在图像上滑动,与重合的图像局部像素值进行相乘再相加的操作,最终输出一张特征图。其中卷积核的作用相当于滤波器,参数经过训练学习所获得,用以提取图像中的特征。此外,在 CNN 中感受野的概念也是十分重要的,其决定着某一层输出结果中一个元素所对应输入层的区域大小。感受野的区域越大,则表示其接触到的输入图像的范围就大,即包含更为全局、语义层次更高的信息。在图 2.2 中,其感受野大小为 3×3。
.......................
2.2 基于深度学习的图像语义分割
随着深度学习的迅猛发展,众多研究者相继提出基于卷积神经网络的图像语义分割模型,不同的模型可以解决在不同的场景图像分割时所产生的一些特定问题。本小节主要介绍几个经典的分割网络模型,详细剖析其网络结构,并分析其优缺点。
2.2.1 FCN 网络介绍
2015 年,Long 等人[15]提出 FCN 网络用于图像语义分割领域中,对图像进行像素级别的分类。FCN 为端到端网络,即输入是一张图像,网络的输出也是一张图像。 在经典的神经网络结构中,一般将全连接层作为卷积层的后续结构,即卷积层所输出的特征图传递给全连接层,并将其映射为一个固定长度的特征向量,从而得到对整张图像中的分类概率。而 FCN 网络中将最后的全连接层替换为卷积层,从而可以接受任意大小的输入图像。同时,该网络中采用反卷积层,将最后一个卷积层的特征图进行上采样操作,使其恢复为原输入图像大小。因此,FCN可以处理任意大小的图像。此外,网络中还加入了跳远连接,将深层次的语义信息和浅层次的细节信息有效结合,以得到更加精确的分割结果。
与其他基于卷积神经网络的图像分割方法相比,FCN 可以处理任意大小的输入图像,且在网络在计算过程中更加高效,有效避免了重复存储和计算量增加等问题。但是,在 FCN 网络中对最后得到的图像直接进行上采样到原图大小,忽略了空间信息,对细节内容不敏感,以至于所得到的分割结果不够精细。
...........................
3 基于多尺度卷积神经网络的图像语义分割模型研究 ....................... 16
3.1 引言 ........................ 16
3.2 网络模型介绍 ............................. 17
4 基于多尺度残差金字塔池化和全局注意力机制的图像语义分割模型研究 .... 29
4.1 引言 ............................... 29
4.2 网络模型介绍 ............................. 30
5 总结与展望 ..................................... 44
5.1 本文总结 ......................... 44
5.2 展望 ......................... 44
4 基于多尺度残差金字塔池化和全局注意力机制的图像语义分割模型研究
4.1 引言
近年来,CNN 逐渐成为图像分割领域中的核心方法[39],越来越多的研究者基于此提出不同的语义分割神经网络模型。但是,深入研究当前所使用的语义分割方法后发现在分割领域仍存在着众多难题。语义分割的场景图像易受类别多样性的影响,如果图像中的环境较为复杂,那么对于几何结构不突出的物体分割将面临困难。比如在整副图像中的远景物体,或者两个相邻的几何结构相同但不属于同一类别的物体,都会对分割造成一定的难度,造成本应同属于一个类别的物体分割不完全,或者本属于多类物体却错误分割为一类的现象。对于环境复杂度高的图像中几何结构不突出的物体类别,在分割过程中极易受周围环境的影响,当与周围的物体类别像素值差异过大或者过小时,易产生过分割和欠分割现象。如图 4.1(a)中白色框所示,目标分割物体“路灯”与后面的“建筑物”有一个重叠区域,而两类物体的像素值不同且在边缘处有一个像素值的跳变,导致分割时将“建筑物”分为“路灯”的一部分,此为过分割现象;如图 4.1(b)中白色框所示,目标分割物体“警示牌”与背景“建筑物”的颜色像素值相近,造成“警示牌”分割缺失,此为欠分割现象。
............................
5 总结及展望
5.1 本文总结
图像语义分割作为计算机视觉里最重要的一个分支,直接关系着计算机对于图像理解的程度。因此,得到高精度的图像分割结果是众多研究者共同追求的目标。对所获取到的图像进行像素级别分割工作,可以清楚的理解图像中所包含的物体类别信息以及精准位置信息,为真三维系统、辅助医疗、无人驾驶等领域提供可靠的辅助信息,有利于人工智能技术的快速发展。结合深度学习方法进行图像语义分割对各领域的发展有着重要意义。本文的主要工作及创新点概括如下:
(1)针对实际场景图像中因受光照强度影响,造成图像中物体的纹理特征和颜色特征缺失,从而出现过分割和欠分割问题。本文创新性地提出基于多尺度卷积神经网络的图像语义分割方法,其中,提出基于多尺度上下文信息的空间金字塔池化模块,以增大感受野并且捕获更丰富的高级语义信息,从而改善在高分辨率图像中出现的过分割和欠分割问题。
(2)针对因图像中类别多样性造成的几何结构不突出物体出现过分割和欠分割的现象,分析对比当前主流的图像语义分割模型,创新性地提出了基于多尺度残差金字塔池化和全局注意力机制的图像语义分割方法,其中通过改进 ASPP,提出多尺度残差空间金字塔池化模块以获取包含更多几何特征和纹理特征的高级语义信息。此外,该方法中创新性地提出基于注意力机制的解码器模块,综合网络中全局的信息,以改善在分割过程中所出现的过分割和欠分割现象。
参考文献(略)