1 绪论
1.1 研究背景及意义
人类个体都具有独特的生理和行为特征,这些特征在信息化不断发展的 21 世纪成为识别个人身份的有效新技术。并且这些具有唯一性和特殊性的生物特征也正逐渐融入人们生活的方方面面,帮助人们实现更加智能化的生活。近几年,中国在信息技术、信息安全、金融交易、社会安全等领域推动生物特征识别标准化工作,产业潜力巨大。2002 至 2015 年,国内生物识别市场的年复合增长率达到 50%,2018 年,我国生物识别市场规模已经突破 300 亿元,占到全球市场规模的 20%以上。由于下游需求领域的继续放大,预计未来我国仍将有较大的增长空间。预计到 2021 年,中国生物识别行业的市场规模将突破 340 亿元,生物特征识别技术已经进入大规模应用阶段。
步态识别是一种新兴的生物特征识别技术,旨在通过人体走路姿态进行身份识别。英国南安普顿大学电子与计算机系的马克·尼克松教授的研究显示,个体间有截然不同的走路姿势,因为人类在肌肉的力量、肌腱和骨骼长度、骨骼密度、视觉的灵敏程度、协调能力、经历、体重、重心、肌肉或骨骼受损的程度、生理条件以及个人走路的“风格”上都存在细微差异[1]。对一个人来说,要伪装走路姿势非常困难。人类自身很善于进行步态识别,在一定距离之外都有经验能够根据人的步态辨别出熟悉的人。步态识别的输入是一段行走的视频图像序列,其数据集与面部识别类似,具有非侵犯性和可接受性[2]。随着视频监控设备在公共场所的普及,人体步态的采集也越来越方便,步态识别逐渐在生物认证,社会保障,视频监控和法律援助等方面具有广泛的应用。
在实际的应用坏境中,人体行走的模式主要受两方面的影响,一方面是包括着装,携带物,身体情况及心情等个体内在因素影响,另一方面是包括路面情况,视角及自然天气等外在环境影响[3,4],这就导致提取到代表性步态特征具有一定的难度,视角的转换是影响步态分析及研究最主要的因素之一[5,6],也是国内外步态识别研究者重点研究的方向之一。当个体行走方向发生较大改变,或由一个被观察角度切换至另一个被观察角度时,都会造成视角的改变。众所周知,从正面或侧面所观测到的人体步态图像具有明显差异,研究普遍认为 90°视角,即侧面视角包含的步态特征包含更具价值的信息。在此视角下,不仅可直观检测到行人步幅的大小,也更容易探究行走时肢体的运动规律。
...............................
1.2 国内外研究现状
1.2.1 步态识别的国内外研究现状
有关人体步态的研究诞生于 1970 年,其在当时的研究重点是基于医学的步态分析,其中就有生物个体在运动状态下的视觉感知和利用步态相似度进行个体身份识别等。随着对步态研究的深入,越来越多的研究人员将科研领域拓展到关于生物个体身份识别的步态研究上,随之诞生了众多工作成果,Murase H 等(1996)[16]提出了特定参数空间的时空特征步态表示方法,D.Cunado 等(1997)[17]利用行人肢体运动特征进行个体识别,J.L.James 等(1998)[18]利用行人的运动外观轮廓形状进行识别。
本世纪以来,步态识别研究迈入了全新发展历程。2000 年,美国国防高等研究计划局赞助了远距离身份识别计划,该计划联合了卡耐基梅隆大学、哥伦比亚大学等研究机构采集了大量的数据,旨在实现多模态、远距离条件下行人身份的识别,极大地推动了步态识别研究。Han J 等(2005)提出步态能量图(Gait Energy Image, GEI)的概念,并将其作为步态特征进行识别,Khalid Bashir 等(2010)[19]在步态能量图的基础上提出将步态熵图(Gait Entropy Image, GEnI)作为步态表示形式,Francesco Battistone 等(2018)构建名为基于时间的图长短期记忆(Time based Graph Deep Long Short-Term Memory, TGLSTM)[20]网络,该模型通过深度神经网络共同利用结构化数据和时间信息,能够学习图结构和长短期依赖关系,用以步态和姿势识别。国内关于步态的研究也产生了大量的研究成果,中国科学院自动化研究所王亮博士等(2003)[21]提出一种简单有效的自动步态识别算法,对于每个步态序列而言,一种改进的背景减除方法用于检测行人的运动轮廓;然后,这些时变的 2D 轮廓形状被转换为对应的 1D 距离信号,同时通过特征空间变换来提取低维步态特征;基于时空相关或归一化欧氏距离度量,标准的模式分类技术用于最终的识别。2006 年,中科院自动化研究所提出 CASIA 框架[22]标准用以评估步态识别算法的性能,其中 CASIA-B 大型步态数据库现已成为步态识别领域中主流的数据集之一。2018 年,复旦大学提出步态集合算法(GaitSet)[23],将步态轮廓图像视为一组无序集合,不再刻意提取步态时间特征,而将步态外观所包含的位置信息作为步态特征的一种,该算法具有较低的复杂度同时取得目前最高的识别准确率。
.................................
2 步态识别相关技术理论
2.1 引言
人体步态作为生物行为特征的一部分,与其他诸如面部、指纹、虹膜等生物特征相比,具有难以伪装、难以模仿和无需被识别者配合等特点,这种新型身份识别技术适合应用于远距离身份识别任务中,例如犯罪预防和法医鉴定。一般情况下,一个完整的步态识别流程主要由以下四个过程组成:
(1)步态数据采集:评价步态识别算法性能的前提是步态数据集的科学与严谨,按照步态数据来源的划分,步态数据第一大类为基于特殊传感器的数据(足底压力传感器、穿戴式传感器)[29],此类数据一般用于步态识别衍生研究。第二大类为基于视频序列的步态数据[30],此类数据一般用于主流步态识别研究。本文研究工作主要基于视频序列步态数据。
(2)数据处理及预处理:当收集到步态数据之后,需要对数据进行必要处理。在基于外观的步态识别方法中,一般选取图像原始数据作为输入,对原始图像的处理依次包括目标检测、分割、去噪,在此之后进行图像二值化和图像归一化处理,从而得到步态轮廓图像[31]。
(3)步态特征提取:步态特征提取是步态识别的核心技术,步态特征选取的优劣会直接影响识别结果。目前,国内外科研人员对步态特征提取技术已提出众多高效的方法。
(4)特征分类与匹配:在提取步态特征后,可通过分类器方法(神经网络[32]、决策树[33]等算法)进行对步态标签的识别分类,也可通过相似度学习方法(欧式距离、马氏距离等)比对两段步态序列间的相似程度,进而完成识别分类。
........................
2.2 神经网络相关理论
进入二十一世纪后,随着计算机计算性能不断提高,深度学习的研究工作也不断取得进展,由感知机模型发展到深度神经网络,到现在已产生卷积神经网络[34]、循环神经网络[35]、生成对抗网络[36]、图卷积神经网络[37]等众多网络结构,力图模仿人脑神经网络结构完成一些复杂的模式识别问题。目前,神经网络在目标检测、语音识别、预测估计等应用领域已取得突破性进展[38],相比传统方式的特征分类识别方法,深度学习优势在于可通过自我学习方式实现多层特征表示,使机器在特定任务中接近人脑思维活动甚至超过人脑,促进人工智能技术融入人类生产生活中。
单个神经元接收前一层网络中 n 个神经元的输出信号 yi’作为输入信号 xi,每个输入信号都会分配对应权重 wi,输入信号加权求和后与偏置 b 向量相加得到净输入 z,净输入 z 经过激活函数 f 进行运算,最终得到该神经元的输出 y,如图 2.1 所示:
图 2.1 人工神经元
3 基于时空间特征步态识别算法研究................................... 16
3.1 步态数据库.................................. 16
3.2 步态集合算法.............................. 18
4 普适性步态识别实验.............................. 29
4.1 步态图像预处理 ............................ 29
4.2 与其他方法对比实验结果 ............................ 29
5 结束语.................................... 38
5.1 全文总结............................. 39
5.2 工作展望.......................... 40
4 普适性步态识别研究
4.1 步态图像预处理
一组实验结果并不能完全验证改进后模型有效性,同时步态识别应用于现实场景中也是针对真人图像视频进行识别,并且实际场景中包含更多复杂的情况,因此本章会设计更多的对比实验来验证 GSTSN 网络的性能。同时由于采取的是步态视频图像作为实验对象,则需对 CASIA-B 数据集中的 avi 步态视频文件进行预处理。
首先需要将视频文件剪切为单张图片,由于 GSTSN 网络模型输入由若干组真人图像组成,而 CASIA-B 数据集只包括轮廓剪影图像和真人视频序列,因此将其中的真人视频剪辑成一组连续真人图像更有利于模型训练。CASIA-B 数据集所提供的每段视频序列大概四至五秒,每秒 24 帧,则每段视频大致包含一百帧左右的图像(除去不包含人体图像的纯背景图像)。
接着将剪切好的真人图像数据集进行转换,原始剪切的图像大小无法保持一致,这样不利于模型进行批量训练,会大大降低模型性能,同时考虑到实际应用中,步态识别只与人体外观与人体关节随时间运动规律有关,与其他信息无关(比如图像颜色信息),同时为降低模型计算量,提高模型性能,因此需要将剪切成的真人图像转换为 64×64像素大小的灰度图,如图 4.1 所示(这里为便于观察,图片为放大后的效果):
图 4.1 步态视频预处理后的效果
5 结束语
5.1 全文总结
人体步态同指纹、虹膜和人脸一样,均属于是生物特征,可以通过对行人步态进行分析,从而得到行人身份信息[57]。相较于其他生物特征,步态具有可远距离识别、无需被识别者配合等优点。虽然目前许多步态识别算法处于理想化实验和偏理论性研究阶段,但是在公安系统内的刑侦追踪和法医鉴定等领域已获得更多研究者的关注。由此可见,步态识别方法具有很大的理论研究价值和实际应用空间。
本文首先介绍的是步态识别方法的研究背景和意义,简述当前步态识别研究所做进展以及面临的诸多挑战;然后介绍了步态识别相关技术以及如今与之高度相关的深度学习的一些知识,包括步态图像预处理和卷积神经网络的基础理论研究和简单的公式推导。之后通过对步态集合算法和长短期记忆网络的研究,并结合人体步态的特点,分析步态集合算法的不足之处,同时本文提出利用长短期网络提高步态集合算法的性能;最后设计了不同的对比实验评判新模型对于步态识别方法的效果。本文主要的创新点和贡献如下:
(1)提出了步态集合算法存在的不足。主要是结合实际生活中,人们判断行人是否是自己所熟悉的人,首先从行人外观其次从行人肢体动作判断,因此本文认为只提取步态外观或步态肢体随时间运动规律均不能达到很好的识别效果。由此推断,步态集合算法认为步态是无序序列且只利用卷积神经网络提取步态特征存在些许不足。因为步态是一组连续且有时间规律的运动,这一运动规律也是识别行人身份信息的关键,同时应该利用提取时间信息更为良好的长短期记忆网络来提取此特征,目前已有许多论文证实了本文观点的实际性。
(2)研究了步态时空间特征融合对于步态识别算法的有效性。通过分析研究前人步态识别方法的思想以及探究不同神经网络模型优势与不足,构建了用于提取步态时空间特征和时空间特征融合的 GSTSN 网络。利用 CASIA-B 数据集中的轮廓图像,实验研究了融合步态时空间特征后,对于步态集合算法的改进效果。实验结果表明,提取步态时间特征或步态空间特征均可作用于步态识别研究,但效果最好的始终是融合之后的步态时空间特征。同时,实验表明融合步态时空间特征后,无论何种实验设置,新模型的性能都有所提高,且训练样本越少,提升的效果越明显,即使是提升效果最低的 LT 实验设置,在三组样本上的识别率分别提高了 2.2%、2.4%和 5.9%。
参考文献(略)