第一章 绪论
1.1 研究背景与意义
在这个被丰富的数据驱动的社会(例如,来自闭路电视的实时视频,以及来自不同数据源的其他感应数据),基于传感器数据的相关研究[1]受到了广泛的关注,包括诸如人机交互和普适计算等学术文献(例如,用户标识[2]和人类活动识别[3])。智能手机的传感器依托不断进步的硬件与软件(例如,具有嵌入式强大传感器和无线技术的廉价移动设备[4])也使用传感器数据简化人类活动识别,示例应用包括医疗保健[5],基于速率的情绪反应[6],活动监控[7]以及商业应用[9]。例如,人类活动识别可以利用移动设备传感器数据的时间序列信号,并使用各种算法提取代表性数据特征以进行分类和区分。
但是,由于许多基于传感器数据应用程序都需要复杂的信号处理技术和算法,因此它们的设计和实现仍然是当今的一项艰巨任务。在能量可用性,计算能力和存储容量方面,传感器数据能借助的资源有限。在这种具有挑战性的情况下,冗余或互补数据与多传感器融合方法的结合是一种有效的解决方案,可以从严重损坏或嘈杂的信号、数据丢失或不一致和受随机和系统错误影响的传感器样本中推断出高质量的信息。大多数商用网络使用传感器数据的应用都假定单个设备监视大量用户信息。实际上,基于传感器数据的应用技术正在过渡到多设备同步测量环境。随着智能手机变得越来越复杂,来自多个可能异构的传感器源的数据融合成为一个具有挑战性的任务,这些任务直接影响活动监视应用程序的性能。特别是,我们注意到,基于传感器数据的应用设计中使用的复杂处理链引入了具有不同级别的复杂性和有效性的各种级别的数据融合。仅在最近几年,研究人员才开始开发用于有效融合传感器数据的技术解决方案。大多数商用网络使用传感器数据的应用都假定单个传感器监视大量用户信息。实际上,基于传感器数据的技术正在过渡到多传感器数据同步测量环境。
..........................
1.2 国内外研究现状
如前所述,人类行为识别是计算机视觉领域中针对各种环境的活跃研究领域之一,并有着十分广阔的前景。而目前对人类行为识别的研究主要集中在图像识别和传感器识别。本节详细介绍基于图像数据的行为识别以及基于传感器数据的行为识别,明确行为识别课题的区别和联系以更好的进行研究。
1.2.1 基于图像数据的行为识别
基于骨架图对行为识别的研究是基于图像数据研究的一个热点,最初可以追溯到1973年[10]。Alejandro Newell等人[11]通过RGB图像进行关节点估计,在所有比例尺上处理要素并进行合并,并提出了一种新颖的“堆叠沙漏”网络模型,用于预测人体姿势。这个网络模型捕获并整合了图像所有比例的信息。并基于可视化的池化步骤和随后的上采样步骤(以获取网络的最终输出)为基础,将该设计称为沙漏。
CMU提出一种有效检测图像中多个人的2D姿势的方法[12]。该方法使用非参数表示来学习将身体部位与图像中的个体相关联。该体系结构对全局上下文进行编码,从而允许贪婪的自下而上的解析步骤,在保持高精度的同时实现实时性能,而与图像中的人数无关。该体系结构旨在通过同一顺序预测过程的两个分支共同学习零件位置及其关联。
还有一种常用的获得人体骨架的方式就是通过深度摄像机直接获得(例如Kinect)。来自Kinect数据的人类动作识别是一个热门话题,并且已经在该问题上使用了各种方法。K Chen[13] 等人提出了一种基于定性表征和类比推广的高精度和新颖解释能力的新方法,用于学习如何从骨架数据中对人类行为进行分类。该算法使用方位角变化来分割轨迹,用人类高级视觉的认知模型丰富运动和配置的描述,以及通过可检查的关系模型提供学习的类比概括。说明骨架图用于可视化不同段之间的对应关系和映射。
.........................
第二章 模型技术理论及相关算法
2.1 机器学习概述
学术上,对机器学习最为广泛认同和正式的定义为 1997 年 Mitchell 提出的“假设 P(Performance)为评估程序在任务 T(Task)上的性能指标,如果一个程序能够通过利用经验 E(Experience)在 T 任务上性能得到改善,那么我们说该程序在关于 P 和 T 上对 E 进行了学习。”[27]
与机器学习有关的学术活动在近几年来空前活跃,机器学习已经成为新的学科,综合应用了多门学科并融合了多种学习方法,多样化的继承学习系统研究也随之兴起。各种学习算法的应用范围也在不断扩展,一些应用研究已经落地转化成产品。本节将主要介绍机器学习中的一些基本术语,并通过一个简要的示例图举例展示机器学习的基本流程。
2.1.1 基本术语 假定有一批西瓜[28]的数据:
1. (色泽=青绿,根蒂=硬挺,敲声=清脆)
2. (色泽=乌黑,根蒂=蜷缩,敲声=浊响)
3. ……
在上面的数据中,每对括号内是一条“记录”。一组记录的集合称之为一个“数据集”。数据集中的每条记录为关于一个对象或者时间的描述,称为“样本”或者“示例”。
........................
2.2 深度神经网络
随着 2016 年以 Goodfellow 为代表的几位机器学习领域杰出的研究人员共同出版的著作《深度学习》面世,深度学习成为现今机器学习最火的一个子类。深度学习的灵感主要来自于人类大脑,是模仿人类大脑的工作方式,利用深度人工神经网络来挖掘特征表达的学习过程。深度人工神经网络本身并不是一个新概念,它可理解成拥有大量隐藏层的人工神经网络结构。而为了将深层神经网络的性能提高,神经元的激活函数以及连接方式等其他方面都做出了相应的调整。这样做都旨在建立一个模拟人脑的机制去解释数据,如声音、图像和文本等,一个能够模仿人脑进行分析和学习的人工神经网络。
我们使用机器学习算法来从数据中解析和学习,并根据所学的特征做出明智的决策。一般来说,深度学习创建了人工神经网络,可以使它自己自动地学习并同时做出明智的决策。可以说深度学习是机器学习的子领域之一。从影响上看,深度学习使机器学习能实现的应用变得更多了,并同时让人工智能的领域范围变得更为广泛,人工智能、机器学习、深度学习的关系可以由图 2-2 概括。
.........................
3.1 传感器数据 ............................... 20
3.1.1 感知信息 ................................ 20
3.1.2 智能手机传感器 ............................. 20
第四章 智能手机用户行为识别模型 .................................... 31
4.1 模型解决方案 ....................................... 31
4.2 整体模型 ................................. 31
第五章 实验设置及结果分析 ............................. 46
5.1 实验环境 ........................................... 46
5.2 实验设置 .........................46
第五章 实验设置及结果分析
5.1 实验环境
为了证明实验的泛化性,本文的实验环境统一,主要是对传感器数据的处理及神经网络模型的训练。在数据预处理部分及图像化部分本文使用的编程语言为python 2.7.17 以及 python 语言中的一个扩展程序库 numpy,以便进行数组和矩阵的大维度运算,同时能够提供大量的数学函数库。神经网络模型的训练使用的是Google 的开源深度学习框架 TensorFlow,版本号为 1.12.0(GPU 版)。并使用 Keras作为高阶应用程序接口对神经网络模型进行设计、评估、调试和应用,版本号为2.2.4。在本文中主要使用 Pycharm 作为集成开发环境,版本号为 2019.3.2。所有实验均运行在 ubuntu 18.04 的操作系统上,并配置了两块 Nvidia Geforce 1080Ti 作为实验用 GPU,主机配置的内存为 32G。
测试集。 本文的实验主要分为三个部分。第一个部分的实验针对时间序列数据图像化的可行性做一个先行实验。其中将使用不同的图像化技术来证明用图像化技术对时间序列数据进行识别具备可行性,即使使用最简单的图像化算法。第二个部分的实验将着重实验深度残差网络的融合方法,用充分的消融学习实验来得到深度残差网络结构中最优的融合位置和融合算法。第三个部分的实验为本文所使用的只能手机用户行为识别模型与其他模型在相同条件下进行的实验对比。
..........................
第六章 结束语
6.1 全文总结
本文首先通过智能手机和传感器在当今社会的普及度引出本文的研究动机,介绍用户行为识别的国内外研究现状和研究意义,尤其是基于传感器数据的用户行为识别。根据携带的智能手机中的传感器,用户在运动中产生感知信息并和其行为本身相联系,借助深度学习的框架和序列数据可视化的启发,提出一个新颖的基于传感器数据的用户行为识别模型,通过一系列的消融学习实验来使模型在图像化、融合方面达到性能最优。最后对提出的基于传感器数据的用户行为识别模型模型在多个数据集下与其他方法进行对比实验来测试其性能的优越性。本文研究的主要内容及贡献如下:
(1) 数据的采集和预处理。本文共使用了三个数据集,每个数据集数据的规模大小不同,并且其收集数据的方式和使用设备也各不相同,旨在提高本文所提模型的鲁棒性。由于用户行为识别的重要指标以准确率为主,必须要减少其它因素影响,对数据归一化使数据的格式统一,并且进行输入前的其他预处理操作。
(2) 针对现有识别方式的单一性,受序列数据可视化方向启发,将传感器产生的时间序列数据通过 GAF 图像化算法转换成图像数据。其中,根据用户行为识别问题中的特殊情况,提出一种升级版的 GAF 图像化算法。使得在保证原有图像化算法的性能情况下对特殊情况进行有效处理。换言之,本文通过统一时间序列的全局和局部特征,开发了一种特征工程方法,可将基于传感器的时间序列数据传输到不同的图像中。
(3) 针对传感器数据的多源异构性,使用多种传感器数据(如同时使用加速度和角速度数据)进行共同训练。为了满足这种训练需求,提出一种融合的卷积神经网络——深度融合残差网络,使得异构传感器数据中的隐藏信息能够被充分挖掘。换言之,本文提出了一种融合框架以从生成的图像中自动提取图像特征,并通过区分不同的图像特征来识别用户行为。
(4) 所提模型与对比实验进行对比,实验结果表明本文提出的行为识别方法准确率均显著高于其他方法,能够在多种场合下有效地识别出智能手机用户的行为,具有良好的普适性。
参考文献(略)