多元时序Shapelets及其在ICU医学软件应用的研究

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202330015 日期:2023-07-22 来源:论文网

第 1 章 绪论

1.1 研究背景与意义

时间序列数据是按照一定的采样频率,对领域内的某种过程进行观察的数值集合。在生产生活中,获取带时间戳的观察数据是常用的观测手段[1]。例如,在股市、银行等商业活动中,对交易日的股票的开盘价格以及闭盘价格按时间顺序构成时序数据研究价格走势,如图 1.1 所示的某股的价格走势;在生物医学上,对医学的生理指标数据进行观测,并研究其随时间变化的活动状态来分析当前病员的身体状态及后期可能的变化,如图 1.2 所示的某病员的心电图的时间序列数据;在天气气象上,对雷暴天气数据进行统计,研究其数据序列数据对雷暴天气进行预测;在农业生产上,对土壤的数据观测等。由此可见,不管是日常生活、商业生产还是生态科学,时间序列数据在各领域都是重要的研究对象。观察图 1.1 和 1.2,可以发现,时序数据是带有时间戳的一系列实值型数据,大都具有数据海量,维度高等特性。通过数据挖掘手段对这类数据获取有效知识是当前该领域所使用的重要手段之一,包括聚类、分类等。多元时序分类问题是研究时序数据的一个方向,并引起该领域众多学者对该类问题进行研究。该类问题的大致处理方向是对带有类别标识的训练样本集合进行学习,获取能够对不同分类的样本进行区分的特征向量,此特征向量对新的未带有类标识的样本数据执行自动分类。传统的数据挖掘中的分类问题对数据中属性的排列次序是没有要求的,属性之间具有独立性。与之不同的是,多元时序分类问题对此是有要求的,所有样本数据的属性的排序位置会影响特征向量的提取[2],这就导致该类分类问题的挑战性更大。同样地,多元时序分类也在生活生产的各个领域,如依据家用电器的用电量的时序数据对其进行分类[3];依据传感器观测生成的时序数据对人的动作进行分类操作等[4]。

.........

1.2 国内外研究概况

本文主要研究内容包括多元时间序列分类以及 ICU 内病员预测,因此本节将从这两块对当前国内外的研究概况进行阐述。

1.2.1 多元时间序列分类研究综述

各领域时序数据的广泛应用使得近十几年来的时序数据挖掘工作得到了巨大的进步,其中时序分类问题作为时序数据挖掘工作中的重要的一部分也有不少研究方法出现。但总的来说,分类问题的处理主要依靠数据之间是否相似,时序分类问题也是基于此来进行分析的。换句话说,计算数据之间是否相似是时序分类的根基。是以,先对时序数据的相似性进行说明,主要有三个角度:时域、形状以及变化相似性[2]。接下来,分别对这三类及其相应的一些分类算法做简述。时域相似性是从整个时间维度的角度对时序数据的相似性进行考量,主要区分噪音和相位漂移造成的不同。这类一般采取基于距离度量的措施来构造KNN 分类器。且大都是基于欧式距离 ED 和动态时间规整 DTW。ED 最早于 1994年被用于对子序列执行匹配操作[6],随后,不少基于 ED 的算法被提出用于分类操作[7-8]。由于 ED 对数据中的噪音以及相位漂移较为敏感,使得其对变形的时间序列处理效果不佳,有学者提出用 DTW 替代 ED 可解决该问题[9]。DTW 的核心思想是动态规划,能通过时间弯曲发现时序数据间的相似性,同时还可处理两不同长度的时间序列间的相似性比较。由于 DTW 方式的优点,不少学者基于此提出了改进的时序分类方法。例如,文献[10]提出了 WDTW(weightedDTW)方法来解决观测点相同权重下相位差引起的误分类问题;文献[11]提出了基于 numerosity reduction 技术和 DTW 的最近邻分类器方法来提高算法的运算时间以及实时性等等。

........

第 2 章 相关理论和技术介绍

2.1 分类

分类,Classification,是分析数据的一种方式。在 Machine Learning 和 DataMining 中占有重要的分量,是该领域下许多问题处理的关键一步。通过分类,可以对事物进行认知学习。主要可概况为:收集带有类别标识的样本对象,建立认知模型,利用该模型对不知类别的对象确定其类别标识。基于上述过程,可通过对不知类别的对象进行划分类别来实现不知类别的对象的理解与认识,也就所说的分类过程。其中,建立的模型通常被称为 Classifier 或者 ClassificationModel。分类这个概念已出现许多年,且一直是该领域的研究热点,到现今,已出现了不少算法,其中较为成熟和经典的包括决策树[38-40]、KNN[41]、支持向量机[42]等。这些算法也是后来学者对分类问题研究的基石,本文在此处对这几类算法进行简要说明。

2.1.1 决策树

决策树,Decision Tree,顾名思义,树状结构的分类模型。在这棵树中,非叶子所体现的是样本集中的各属性,叶子所体现的是样本的类别标识,它们之间的连线为相应的取值范围。图 2.1 为一个根据西瓜的几个特点来对西瓜进行分类的决策树模型。非叶子所体现的是西瓜的各个属性,叶子所体现的是西瓜的类别标识,它们之间的连线为相应的取值。DT 模型可分为 ID3,C4.5,CART,分类依据是模型建立时对非叶子节点的度量方式不同。

.......

2.2 多元时间序列分类

给定二元对(t , v ),其中 t 是时间点,v 是该时间点上的取值,时间序列可定义为具有偏序关系的二元对(t , v )按时间先后顺序取样得到的无限集,用于描述某现象随时间变化的过程。这类时序数据随着科技发展规模越发宏大,体现为现今的具有数据更新快,数据动态变化,数据类型多样和数据价值丰富的大数据[43]。对这类时序数据进行挖掘分析的过程与传统意义上的数据挖掘研究重点有所不同,主要关注重点在时序数据随时间的变化上。时序数据挖掘研究分支很多,多元时序分类是其重点研究方向之一。多元时序分类与其他经典分类方法有所不同,同样是对目标样本进行类别标识,两者的输入有很大的区别,前者需要对这个多元时序数据进行分类,而时序数据的时间长度多样,故此前者比后者在难度上要大很多,经典分类方法不能直接对该类数据进行相应操作。基于上述难点,现在提出的解决方案有两类,分别为基于距离和基于模型。基于距离的方案需要选取一种实用的距离度量标准,确定距离阈值,依据该阈值对待分类样本进行分类,目前常用的距离度量标准有欧式距离和 DTW 距离,这类方案无关领域;基于模型的方案需要根据数据在时间上的依赖关系构建序列模型,提取特征向量替代原始序列数据,随后使用通用分类算法分类,这类方案领域相关。当前多元时序分类的研究不多,体系上还未成熟。该类分类问题需要对序列的各个属性进行分析,研究各个属性之间的时空关系,不能将多元时间序列看成多个单属性时序的直接叠加操作。需要同时对各属性提取特征,利用局部整合成的全局特征进行分类。图 2.4 为多元时间序列分类的过程。

..........

第 3 章 多元时间序列 Shapelets 模型 ......19

3.1 基本概念 ......19

3.2 多元时间序列 Shapelets 模型 ......22

3.2.1 局部特征点提取..... 23

3.2.2 Shapelets 候选集...... 25

3.2.3 新的 Shapelets 数据集...... 26

3.3 本章小结 ......26

第 4 章 基于多元时间序列 Shapelets 的 ICU 预测框架 ..........28

4.1 ICU 数据集相关分析 .....28

4.1.1 数据集介绍.... 28

4.1.2 数据集数据特点分析....... 28

4.2 算法框架 ......30

4.3 核心算法 ......32

4.4 本章小结 ......36

第 5 章 实验 ..........37

5.1 实验环境介绍 ...........37

5.2 指标确定 ......38

5.3 实验结果和分析 .........42

5.4 本章小结 ......45

第 5 章 实验

5.1 指标确定

在 ICU 病房内,每位病员都会被记录身体的各项生理指标,可能是手工记录,可能是器械监测。不过,每个人的身体的各项生理指标有很多,有些十分重要,有些可以忽略,且太多的指标数据会增加计算难度,因此需要对各生理指标进行分析,确定最终需要的指标。因为本文采用数据挖掘的方式进行研究,故采取该领域的属性选择方式进行初步处理,最终本文采取过滤式选取方式。该选取方式主要通过对各属性的记录的密度,各属性的在同一采样频率下的平均值和方差来衡量。此外,还参考了重症医学领域中各生理指标的重要性考量,综合这两方面可结合两块领域知识得到最优的属性选择。下面对各属性的两类平均值和方差以及各属性的采样比例和方差进行说明。1) 对各属性在各类型 ICU 病房下的记录数进行平均值和方差分析,记为Info1,结果如图 5.1 所示;2) 对各类型 ICU 病房下记录各属性的病员的记录数进行平均值和方差分析,记为 Info2,结果如图 5.2 所示;3) 对各属性在各类型 ICU 病房下的采样比例进行平均值和方差分析,记为 Info3,结果如图 5.3 所示;图 5.1-5.3 的横坐标为 1-37,分别表示数据集中的 37 个生理指标,具体为Albumin、ALP、ALT、AST、Bilirubin、BUN、Cholesterol、Creatinine、DiasABP、FiO2、GCS、Glucose、HCO3、HCT、HR、K、Lactate、MAP、MechVent、Mg、Na、NIDiasABP、NIMAP、NISysABP、PaCO2、PaO2、PH、Platelets、RespRate、SaO2、SysABP、Temp、TroponinI、TroponinT、Urine、WBC 和 Weight。

.........

结论

本文系统地介绍了时序数据问题中多元时序分类现存算法,并概述了当前多元时序分类所面临的问题,基于 ICU 病员生死预测这一医学上的典型多元时序分类问题展开了研究。本文从时序数据问题中多元时序分类角度考虑,分析数据特性,引入时间序列 Shapelets 思想,挖掘数据间的时空相关性,构建多元时序 Shapelets 模型,并利用该模型建立 ICU 病员两阶段预测框架。主要工作如下:

第一,构建多元时间序列 Shapelets 模型。多元时序数据维度高,基于点的统计分布思想可建立相应的多元时序 Shapelets 模型。其基本的思想路线是对多元时序数据所有属性进行归一化操作,提取局部特征点集,根据统计学中的分位点能全面描述局部特征点点集的分布的思想,对局部特征点点集提取分位点;再依据给定的分位点定义获取分位点所在序列的子序列构成的 Shapelets 候选集;根据提出的全局 Shapelet 提取法(利用多元时序间的相似性和信息增益值是否有所提升来筛选候选项)选取候选集中分类效果最优的 k 个全局 Shapelet;最后根据给定的距离度量方式将这 k 个 Shapelet 转换为新的 Shapelets 数据集。

第二,提出基于多元时序 Shapelets 的 ICU 病员死亡预测框架。在 shapelets构造阶段,对 ICU 数据集的时序属性执行缺失值处理后得到任一病员的生理属性的矩阵模型,依据多元时序 Shapelets 模型提取最优 k 个全局 Shapelet,并计算到每个序列样本的距离从而构建新的数据集。在预测阶段,对新病员的生理指标数据进行属性归一化,使用上一阶段得到的数据集构造分类器,得到最优分类器并对将新病员的多元时序数据最为输入执行分类操作,获得最终分类结果。

..........

参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100