第一章 绪论
1.1 课题研究背景与意义
随着计算机技术的飞速发展,现代社会对计算机技术的相关应用已经深入到各个方面。人工智能(Artificial Intelligence)作为计算机科学的一个重要分支,其主要研究领域包括语音识别、计算机视觉、自然语言处理和专家系统等,这些分支领域愈发受到研究人员的重视。由于在人类的感知系统中,视觉感知获取的信息大约占据了总信息量的80%~85%[1],基于视觉感知的这种庞大信息基数,计算机视觉在人工智能领域的研究中无疑是具有重要的地位,如果说人工智能的核心是研究怎么样使机器像人类一样进行思考,那么计算机视觉研究让机器怎么样去“看”世界就应该是人工智能领域研究的大门。
近年来,人脸识别技术取得了巨大的突破,对于该任务,机器的识别精度已经超过了人类的识别能力。但是,在现实的应用场景下,仅从人脸来判断一个人的身份会被诸多因素制约,比如:现实布置的摄像设备不一定都是高清的设备,通过模糊的人脸难以判别行人的身份。由此可见人脸识别在现实场景的应用中是具有较大限制的。行人重识别技术(Person Re-Identification)是指利用计算机视觉相关技术判断跨摄像头下的图像中的行人是否是同一行人的技术,它被学者们普遍认定为是图像检索的子问题[1-3],在人脸识别技术失效的情况下可以结合人体姿态、外貌特征和属性搭配等整体信息来识别行人身份,它是对人脸识别技术的一个重要的补充与延伸。
行人重识别应用广泛,主要有 1)智能安防,公安部门可以通过区域内布置的摄像头跨镜追踪目标嫌疑人;2)智慧寻人,在大型游乐场、商贸中心、火车站等人流较大的区域搜寻行人,可以快速智能地定位走失的老人或者小孩;3)智慧商场或无人超市,商场布置摄像头可以通过行人重识别技术追踪行人,并分析出顾客在商场中的停留轨迹,以此来分析客户对商品的需求,从而改变供货或布置商品;4)智慧机器人,通过行人重识别技术,即使人员的姿态在实时改变,机器人仍然可以进行跟随。由此可见,行人重识别任务具有重要的研究意义。
..............................
1.2 国内外研究现状
行人重识别也称作行人再识别,实际上,早期的行人重识别任务并没有作为专业的研究方向被人们关注,它更多的是与多摄像头追踪任务交差在一起。直到 2005 年,Zajdel等人[6]在一项多摄像头追踪的研究中提出了“person re-identification”这一名词,再到 2006年 Gheissari 等人[7]正式发表了第一篇行人重识别的文章,这时,行人重识别才正式进入到了研究人员的视野,并被国内外研究人员认定为一项独立的研究工作。由于行人重识别广泛的发展前景以及巨大的研究价值,越来越多的研究人员加入到对行人重识别的关注与研究中来。
1.2.1 基于传统方法的行人重识别
行人重识别任务的研究在早些时期使用传统的方法进行开展,其中主要分为表征学习和度量学习。对于表征学习,其本质就是设计出能够准确表征行人身份的特征。早期的研究方法是使用手工设计的特征描述符来表征行人,Gheissari 等人[7]最早提出的用于稳定检测前景的时空分割方法,通过使用 HS 和 edgel 直方图来检测行人。由于大多情况下行人衣服的颜色、纹理等特征结构简单,因此颜色与纹理等低级的视觉信息特征是设计特征描述符的主要手段。Zhao 等人[8-10]对行人图像进行密集采样得到相应的局部采样块,之后对采样块提取 LAB 颜色直方图和 SIFT 描述符来表征行人。Liao 等人[11]提出的包含颜色和 SILTP 直方图的 LOMO 描述符,在同期的行人重识别任务数据集上取得了优异的成果,对后来的一些方法[12-14]也产生了较大启发。表征学习除了直接使用颜色和纹理等低级视觉信息来构建行人特征之外,一些行人的特定属性也是描述行人身份的重要信息,如:是否携带背包,是否戴眼镜,是否戴帽子等信息,由于相同的行人在短时间内经过多摄像头下时,属性发生变化的概率极小,所以使用属性来表征一个行人相较于低级信息更加精确。Layne 等人[15]在 VIPeR 数据集[16]上标注了 15 个行人的二进制属性,通过低级信息特征训练属性分类器,使用属性加权后所得的结果向量来描述行人图像。
.........................
第二章 基于深度学习的行人重识别相关技术
2.1 深度学习与神经网络
深度学习是机器学习研究领域的一个新的分支。早期的反向传播算法的发明为人工神经网络的研究带来了巨大的热潮,通过该算法可以使训练的神经网络模型有效适应大量的样本数据,从而能够从中学习到数据中存在的统计规律,但在这个时期构建的神经网络基本上只包含一层隐层节点,这也就是早期的浅层学习网络。深度学习可以说是机器学习的第二次热潮,与浅层学习的不同之处在于深度学习采用的神经网络结构通常具有多隐层,从现实的应用中来看深度学习模型无疑更贴近人脑的神经结构,其实质就是通过构建的多隐层学习模型来模拟复杂的人脑神经结构,使用相关数据对构建的网络模型进行训练,从而学习到对相应任务有用的特征,以此提升任务结果的准确性。
2.1.1 卷积神经网络
由于深度学习的迅猛发展,训练神经网络模型所要求的数据量大大增加,对于机器视觉任务处理图像信息而言,卷积神经网络处理图像与一般的神经网络相比所需参数更少,故而其 通常被用于处理图像 信息[50][51]。卷积神经网络 中一般包括卷积层(Convolutional layer),池化层(Pooling layer)与全连接层(Fully connected layer,FC)。
通过卷积操作的反复堆叠使用可以提取到原始输入的不同特征,网络的浅层可以提取到图片中的颜色、边缘、线条等低级特征,随着网络层次的加深,往往可以提取得到更复杂的高级语义信息,这对任务的深入研究具有重要的价值。其中的卷积核可以看作是 BP神经网络中的权值参数,可以通过梯度反向传播算法进行优化。
池化层的本质实际上就是下采样,其通常用于对网络提取的特征图进行压缩,从而去除冗余信息,简化网络的复杂度,减少数据量,在一定程度上控制了网络的过拟合。常用的池化函数有最大池化(max pooling)与平均池化(average pooling)。
...........................
2.2 基于深度学习的行人重识别系统架构
如图 2-2 所示是行人重识别任务流程[52],其中主要包括五个步骤:1)布置摄像设备,进行视频拍摄;2)检测视频帧中的行人,生成检测框;3)训练集标注;4)网络模型训练;5)匹配识别行人。
图 2-2 行人重识别任务流程
基于深度学习的行人重识别系统架构主要包含两个阶段:训练阶段和识别阶段。行人重识别的数据集被设计为三个部分组成,分别是训练集(Train),测试集(Test),以及查询图片集(Query)。在训练阶段,对训练集图片进行预处理,使用处理后的图片对构建的网络进行训练,得到能够提取具有优秀判别性和鲁棒性特征的网络。识别阶段中测试集通常又被称作查询图库(Gallery),将图库图片以及查询图片集中待识别的查询图片(Probe)输入到训练完成的网络中,提取相应的图片特征,之后使用距离度量的方法,对提取的图库图片特征按照与查询图片的相似性进行排序,以此进行重识别。如图2-3 所示是基于深度学习的行人重识别系统的框架,它主要由以下几部分组成:
图 2-3 基于深度学习的行人重识别系统架构
第三章 用于行人重识别的局部特征对齐划分方法 .................................. 21
3.1 引言 ................................................ 21
3.2 硬化分方法 ........................................ 21
3.3 基线网络介绍 ............................................... 22
第四章 用于行人重识别的多层特征融合网络 .................................. 33
4.1 引言 ........................................... 33
4.2 非局部模块 ......................................... 33
4.3 多层特征融合网络 .................................... 35
第五章 用于行人重识别的多类型特征网络 ............................................ 42
5.1 引言 ...................................................... 42
5.2 注意力机制 ................................................. 42
第五章 用于行人重识别的多类型特征网络
5.1 引言
注意力机制从挤压激励网络(SENet)[54]的提出开始渐渐成为了深度学习方法中的一种非常流行的模型,并且可以为任务实验性能带来很好的效果。卷积块注意模型(Convolutional Block Attention Module,CBAM)[77]是注意力机制的一种增强改进,在SENet 的通道注意力基础上不仅加入了空间注意力机制,而且在使用平均池化降维的基础上引入了最大池化进行特征补充。虽然,挤压激励模块(Squeeze-and-Excitation Block)的提出使注意力机制得以迅猛发展,但是有研究表明挤压激励模块中的降维操作是低效的,这会对通道注意预测带来副作用。
考虑到卷积块注意模型的通道注意力机制实际上也是以挤压激励模块为基础,本文发现它仍然具有一定的改进空间。基于此,本章首先提出了一种对 CBAM 的改进模型CBAM-Pro。接着,文中提出了用于行人重识别的多类型特征网络(Multi-Type Features Network,MTFN),通过不同的注意力机制提取全局特征,并且划分出多粒度特征提取分支来提取不同粒度的行人局部特征,最终连接多种注意力全局特征以及多粒度局部特征共同识别行人。模型在 Market-1501、DukeMTMC-reID、CUHK03 这三个常用基准数据集上对方法进行了性能验证,实验结果证明了其有效性。
............................
第六章 总结与展望
6.1 总结
行人重识别任务的研究具有很强的现实意义,其对于智能安防、智慧商贸、智慧城市的构建都具有重要的价值。目前,有非常多的高校学者以及企业专家都在对该任务进行研究,由于深度学习的兴起,基于其的行人重识别的研究成为了如今的研究主流。本文基于深度学习来研究行人重识别任务,主要提出了三个研究内容:用于行人重识别的局部特征对其划分方法、用于行人重识别的多层特征融合网络以及用于行人重识别的多类型特征网络,具体研究内容如下:
(1)本文的前两个章节主要对行人重识别任务进行一个总体的概述,第一章介绍了行人重识别的研究背景、研究现状以及研究难点,第二章介绍了基于深度学习的行人重识别研究的理论基础,其次详细介绍了一些主流的相关研究方法,最后介绍了文中实验研究使用的数据集以及评估指标。
(2)第三章在局部特征硬划分方法的基础上,针对其划分所得局部特征产生不对齐的问题,文中提出了一种对齐划分方法,使用构建的空间转换网络学习行人的中心位置,以此为基础沿 Y 轴向图像的两端进行扩展划分,所得的局部特征可以有效对齐。另外,针对局部特征三元组损失优化差异的问题,提出了局部连接特征,对其进行优化可以使所有局部特征的度量结果一致,有助于在识别阶段汇聚相同身份的行人的最终特征。
(3)第四章中考虑到深度学习不同层次特征所含信息的差异,为了使最终的行人识别特征中可以携带这些多层次的信息,文中提出了一种特征融合模块,它可以对两个不同的层次的特征进行有效融合。基于特征融合模块提出了用于行人重识别的多层特征融合网络,通过该模块对网络中由浅到深的不同层次的特征进行级联融合,这使得最终用于识别行人的特征包含了不同层次特征的信息。
(4)第五章从注意力机制的角度考虑,通过联合多种注意力机制,并提取不同粒度的特征,以此提出了一种用于行人重识别的多类型特征网络。文中提出了改进型的卷积块注意模型,之后使用其结合自注意力模块在网络中组成联合注意模块用以提取不同关注域的行人全局特征,最后连接不同关注域的全局特征以及不同粒度的局部特征用以共同识别行人。
参考文献(略)