人体动作实时识别技术探讨

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329836 日期:2023-07-22 来源:论文网
本文的主要工作可以总结为以下几点: (1)为了解决传统二维动作识别技术对动作特征的提取基于图像信息的获取和分割,导致动作特征提取和分割不准确的问题,本文基于 Kinect 人体动作捕捉传感器获取准确的骨骼信息和彩色图像信息为研究对象,从根源上保证人物动作特征提取的准确性和实时性。 (2)为了解决在动作特征处理阶段,采用两种方案:第一、采用两种归一化方法进行归一化处理,将 Kinect 人体动作捕捉传感器获得的三维信息点进行欧氏距离特征和汉明距离特征以及角度特征的处理。第二、将 Kinect 人体动作捕捉传感器获得的彩色图像利用 STN 对重要动作特征序列的加注意力机制进行建模和空间特征转换,使用本文提出的 STN-ResNet 模型进行特征提取,采用 Softmax 分类函数进行动作的多分类,实现对人体动作特征的精准处理。

1 绪论

1.1 研究背景及意义
随着人机交互(Human-Computer Interaction)[1]技术和计算机传感技术(Computer Sensing Technology)[2]的发展,人的身体是人机交互最重要的媒介之一,国内外许多研究人员对人的身体运动过程中形成的人体动作产生了极大的兴趣。人体动作特征更是能够表现出非常多的信息,人体动作特征可以识别人体的身份、情绪、甚至心理活动,因此在各个领域都发挥着重要的作用,并且人体动作特征是作为人体重要的人体信息之一,具有很多的应用场景,如:步态识别、监控录像、姿势矫正、金融医疗、娱乐游戏、交通运输等行业。如图如图 1.1 所示,(a)步态识别方面的应用;(b)视频监控领域的应用;(c)医疗康复矫正领域的应用;(d)动作识别在娱乐游戏领域的应用。


图 1.1 动作识别的应用

..........................

1.2 国内外研究现状和发展趋势
动作识别技术越来越成熟,关于动作识别的研究也吸引了很多专家学者,同时伴随着动作识别的应用场景越来越广泛,在国内外很多机构都在做相关的研究。根据动作使用的技术可以将动作识别划分为:基于三维空间特征的动作识别方法和基于深度学习的动作识别方法。
1.2.1 基于三维空间特征动作识别方法
传统的动作识别方法有依靠穿戴式传感器保证动作特征的准确性。其中以头盔、手套、加速传感器为主。在国内,Liu 等人使用强鲁棒性的可穿戴传感器进行人体动作识别,这种方法相对准确,实时性高[3];Liao 采用多传感器的设备对脑卒中患者进行上肢动作识别[4]。但是对于穿戴式的动作识别方法对穿戴者有一定的规范要求,不规范的穿戴对于动作特征的获取影响很大;另一方面使用设备需要加重成本,加速传感器、头盔、手套等价格昂贵,不利于动作识别技术的发展和实际应用的落地。
在利用 Kinect 作为特征提取的识别中 [5 9],Pu 等人采用改进的 Hu 矩阵算法,有较好的动作识别的识别率,但是采用这种方法不能满足对系统的实时姿势匹配[5]。ZhanMY等人采用传统的单一三维空间夹角特征的方法进行动作识别,没有考虑距离对人体动作的影响,使人体身体部位弯曲、旋转不同方向的相同度数类的动作识别混淆。并且由于没有对骨骼的角度特征采取归一化的方式处理处理,导致关键动作没有统一的对比特征,从而影响识别率[6]。Wang 等人使用 Kinect 作为特征获取,使用 KNN 算法对动作进行自动分类,此方法在各种动作种类的动作特征提取不均衡会导致识别效率不高[7]。在国外,Imani Z 等人[8]使用局部二元模式、局部导数模式和局部 tetra 模式的直方图作为人的再识别特征,人体特征融合使用分数级融合特征矢量的方法对动作进行匹配,有较好的实时性。Li 等人[9]使用姿势特征矢量,使用特征矢量的方法对动作进行匹配,引入改进的动作识别评分公式,有较好的识别率和实时性。但是使用的方法只是针对静态的人体动作进行匹配,难以对动态动作进行实时识别。传统的利用 Kinect 动作识别虽然动作识别的准确性达到了较高的水平,但是使用的动作获取方法方法只是准对静态的人体动作姿势进行匹配,难以对动态动作进行实时识别。Xiao 等人[10]引入压缩感知和稀疏矩阵,提出的采用压缩分类的方法进行动作识别,虽然有效地对低维采样数据进行识别,但是也由于信息处理时导致的信息丢失导致动作识别的不精确。Wang 等人使用映射流行空间的改进的 Hausdorff 距离的方法进行动作特征匹配运算,得到了良好的效果[11]。传统的依靠降维方法进行识别,增加了时间复杂性,另外,在基于 Kinect 的其它识别过程中,也存在像准确度不高、场景单一等各种不足。因此想要得到更好的更好的识别率并保证动作识别的实时性,还需进一步学习研究。
.....................

2 Kinect 深度传感器与基础理论知识

2.1Kinect 深度传感器
体感交互、康复医疗、姿态矫正、自动驾驶、影视产业、交通导航这些结合高新技术的场景都离不开对人体动作的精确捕捉,传感器的使用就是如今虚拟与现实世界之间的主要工具。加之目前世界总体经济水平的提高,人们生活水平的提高导致人们对自然人机交互的需求越来越大,这也促进了各大商家对人机交互设备的研究。在这种背景下,微软公司在 2010 年发布的体感外设 KinectV1 引起了极大反响,受到社会体感外部设备界的欢迎,取得了空前的成就。接着又发布了 Kinect V2,在 KinectV1 的基础上进行升级,功能更加齐全,三维骨骼数据更为准确和深度图像更为清晰[23]。KinectV2 外观如图2.1 所示。


图 2.1 Kinect 深度传感器外观

........................

2.2 卷积神经网络
2.2.1 卷积神经网络结构
计算机技术和相配套的硬件设备不断的进步发展,人工神经网络的发展也空前繁荣。卷积神经网络(convolutional neural networks,CNN)的形成成为其代表作品,并且卷积神经网络的发展非常迅速。目前广泛地应用于图像任务处理、计算机视觉等多个领域。卷积神经网络目前是图像领域特征提取最好的方法。它的思路来源于大脑神经网络,在现在的人体动作识别领域的相关研究中一些思路也得益于此。当对某个相关动作进行识别时,大量的视觉神经元被激活,每一层的神经元对应一组特征,低层的神经元对应低级的特征,更高层的神经元对应更为复杂的特征,从而实现动作识别。
卷积神经网络结构复杂多样且适用性广,因此现在得到了更大的发展。虽然结构复杂,但是卷积神经网络的主要结构没有发生变化。卷积神经网络主要由输入层、卷积层、池化层、全连接层和输出层组成[28]。基本结构如图 2.6 所示。每个网络层的尺寸、层数的设计都非常的关键,它们是网络性能的决定性因素,而且在实际应用中,还可以根据研究对象的不同需求,通过堆叠,实现不同的功能。以下对每个部分作简要介绍:


图 2.6 卷积神经网络的基本结构

输入层。输入层是卷积神经网络的开端,在处理图像的卷积神经网络中,它一般以一张图像的像素矩阵作为输入。比如在图 2.6 中,最左侧的代表输入层。在输入层,它把图像信息转换为三维矩阵,分别代表图像长、宽和彩色通道。在输入层,为了卷积神经网络后续对图片的像素矩阵的卷积操作、激活操作、池化操作,需要将图像数据进行预处理,使数据标准化,从而使卷积神经网络能够快速收敛,达到好的识别效果。
..........................

3 基于 STN-ResNet 的人体动作识别..........................26
3.1 基于 STN-ResNet 的人体动作识别整体框架..........................26
3.2 基于 STN-ResNet 网络的特征提取..........................26
4 基于三维空间特征的人体动作实时识别..........................29
4.1 基于三维空间特征人体动作识别整体框架..........................29
4.2 动作特征提取和处理方法..........................29
5 实验结果与分析..........................36
5.1 数据集..........................36
5.1.1 自定义数据集..........................36
5.1.2MS COCO 数据集..........................36

5 实验结果与分析

5.1 数据集
在以上基础理论的前提下,本文基于 Kinect 深度传感器能够实时跟踪骨骼信息的特性对动作识别当中遇到的问题分别提出了对应设计方案。本章主要是对所提出方案的实验结果进行评估和分析。首先。对自定义的数据集和微软团队于 2014 年出资标注的“MS COCO”人物数据集进行简要的介绍。然后对基于三维几何特征的实验结果和基于 STN-ResNet 特征的实验结果进行了分条阐述。最后分别介绍基于三维空间特征和身体动作区域检测结果的实验结果,并在大型公开数据集和自定义数据集上对本文所提出的设计方法进行了评估实验。验证了所提出方法的有效性。
传统的数据集收集的方法不够成熟,而现在本文所用的数据集大多数是在那个时候建立的。里面或多或少会对当时的技术有些欠缺,并且人体动作识别的动作种类也有所欠缺,大多数类别是类似跑步、打拳、打羽毛球、遛狗、滑雪等。这种数据对于动作识别算法来采用有一定的缺陷:动作分类较少,缺乏针对性。进一步地,国内外多采用多摄像头或者是基于硬件设备的方法获取人物三维信息,提出了数据集,但是使用昂贵的动作信息采集设备,花费成本较大;而采用普通摄像头(单个)对人物三维信息进行预测和分析是目前一个比较困难的事情。困难主要体现在如何快速从显示场景或者视频流中获取人体以及定位坐标和人体特征多点检测以及如何从单一角度(单摄像头)获取动作信息。本文使用的基于 Kinect 的人体三维动作实时识别采用实时动作,本文所采用的算法预计可提高动作匹配的精确度,配合人物动作的动态匹配,具有数据量大、人体动作针对性强、动作信息全面等优势,可以的达到较高的标准,具有比较好的效果。
.......................

6 总结与展望

6.1 总结
动作识别领域的研究一直备受社会各界关注。传统的基于图像特征的识别和人体轮廓获取方法由于本身的动作特征不准确,基于此类方法人体动作识别正在被研究者们抛弃。近年来,深度传感设备的快速发展,获取人体动作特征越来越精密精密,多人体动作的识别也越来越准确。然而,人体动作是人体除了语言以外较为复杂的表现形式,即使获取了精准的外部动作特征也会导致识别率的不尽人意,人体动作识别技术还有相当大的提升空间,人体动作识别领域仍需要加大研究,获取更多关于人类本身的信息。因此本文基于Kinect人体动作捕捉传感器获取的骨骼信息为研究对象,提出的改进的STN-ResNet 模型和基于三维空间特征对人体动作有良好的处理效果。然后分别在自定义的数据集和公开数据集 MS COCO 上做出验证。实现效果有一定的提升,证明了所提出方案在动作识别领域运用的可行性和有效性。本文的主要工作可以总结为以下几点:
(1)为了解决传统二维动作识别技术对动作特征的提取基于图像信息的获取和分割,导致动作特征提取和分割不准确的问题,本文基于 Kinect 人体动作捕捉传感器获取准确的骨骼信息和彩色图像信息为研究对象,从根源上保证人物动作特征提取的准确性和实时性。
(2)为了解决在动作特征处理阶段,采用两种方案:第一、采用两种归一化方法进行归一化处理,将 Kinect 人体动作捕捉传感器获得的三维信息点进行欧氏距离特征和汉明距离特征以及角度特征的处理。第二、将 Kinect 人体动作捕捉传感器获得的彩色图像利用 STN 对重要动作特征序列的加注意力机制进行建模和空间特征转换,使用本文提出的 STN-ResNet 模型进行特征提取,采用 Softmax 分类函数进行动作的多分类,实现对人体动作特征的精准处理。
(3)针对人体动作识别实时性不高、动作特征提取不准确的问题,本文构建了基于三维空间特征的人体动作识别框架。鉴于 Kinect 人体动作捕捉系统获取骨骼信息的准确性,本文采用将骨骼信息的空间特征按照第(2)中所述的处理过程,采用改进的评分方法进行分类。实验结果验证该方案能够很好地处理复杂人体动作识别中特征提取问题。并在自定义数据集和公开数据集上取得了较好的识别效果。
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100