第一章 绪论
5.1研究背景
主成分分析方法(PCA) [1]是最常用的多变量统计技术,其首先被 Pearson 在 1901 年提出,后被 Hotelling 改进,从而 PCA 成为了拥有降低维度和特征提取这两个主要功能的数据处理方法。数据处理工作人员使用一种正交数学变换的方法将相关变量的观测值转化为线性不相关的一组变量值,这种不相关的变量就称之为主成分,并且主成分中的变量数须小于或等于原始变量数。
异构数据集成[2]方面,随着现代数据信息量的迅速增长,数据无法实时有效的得到利用,可能导致信息遗漏等问题的产生。这些问题是指分布式数据存储平台的数据信息无法共享,造成系统中冗余数据、垃圾数据变多,无法有效的保证数据一致性。为了解决这些问题,人们对数据集成技术的研究变得日益关注。
异构数据集[3]是分布在不同系统,互不相交的的数据源,每个应用系统的数据源可抽象为多个数据集。数据集是具有相同主题的数据或信息的集合,可规划为数据库,数据中的表单或集合。为实现数据的共享和透明访问,用户普遍将数据集存储在分布式数据库,用数据处理语言访问数据库。由于 DBMS 缺乏统计性能和高维数据性质,通常需要将数据集从异构数据库[2]中导出到客户端机器,以执行外部软件包分析。而通过不同数据库语句扩展统计功能,可以消除数据导出和客户端开销。通常,异构数据库可以采用相关分析和主成分分析(PCA)进行统计分析数据集,相关矩阵用作 PCA 的输入,达到降低维数的目的。
传统的主成分分析[4](PCA)是一种普遍的特征提取方法,能将高维数据,通过线性变换进行降维。数据压缩,图像分析,可视化数据,模式识别和时间序列预测都是它的常见应用领域。近些年来,数据分析工程师将数据多元分析方法越来越多的应用到驱动模块,例如主成分分析(PCA) 以及偏最小二乘方法(PLS)[5]等。
..........................
1.2数据集成和 PCA 的研究现状
近年来,许多学者对数据结构分布以及多元数据统计的方法进行了大量研究,而对异构数据集的主成分研究也是当今的主要趋势之一。其中,数据的降低维度技术除了 PCA 和 PLS以外,还包括 ICA(独立主成分分析) [12]、FA(因子分析) [13]和 SVM(支持向量基) [14]等。这些技术促进了各领域数据分析和应用的发展。它们具有主成分提取,降低数据维数以及用低维度数据描述高维数据的特点。
多源异构数据的集成是将来自多个分布式数据源的数据逻辑或物理集成到统一数据集中。数据集成的关键任务是集成相互关联的分布式异构数据源,以便用户以透明的方法访问数据。集成是指保持数据源数据的整体一致性,提高数据共享率。透明意味用户对如何进行数据访问不需要关心,这种数据集成系统可以为用户提供数据访问接口。
无论是国内还是国外,数据集成方式主要包括基础数据集成、多级视图集成、模式集成和多粒度数据集成。其中,多粒度数据集成是最难处理的数据问题,数据合成,即数据抽象是指高精度抽象,以形成具有较低精度但是较大粒度的数据。该过程是从多个更高精度的本地数据中获得研究目标的全局数据。此过程中,需要合成每个局部区域中的数据并提取其主要特征。数据集成实际上就是特征提取合并的过程。日常生产生活中,使用较多的方法包括联邦数据库[15]、中间件集成方法[16]、仓库方法[17]。其中国内研究中,以阿里云为代表,设计出了数加--数据集成平台,实现了异构数据集的有效集成,为云平台下的数据分析提供了极大的方便。
PCA 使用数据低维空间投影表示原数据特性,它是一项处理高维、线性高度相关和噪声问题的前沿数据分析技术。近些年来,国内外学者对 PCA 主成分提取和数据可视化研究越来越深入,因此主成分分析也成为了各领域都可以应用的技术。Wold 使用交叉检验确定主成分数量,并且还将该技术应用到预测模型中[18]。Ku 将时滞传递的方法用到了数据监控领域中,为了将该技术应用到多变量场景,PCA 由先前的静态转变为了动态 PCA[19]。Kramer 提出的神经网络非线性 PCA 以便于将 PCA 技术应用到非线性场合[20]。此外,Dong 将主成分分析的曲线和神经网络采用非线性思想训练数据集[21]。
............................
第二章 主成分分析及其相关技术概述
2.1异构数据源
2.1.1 异构数据源概念
异构数据源广义上来讲,指的是数据结构、存取方式、形式不一样的多个数据源。例如,人们可以在多个不同的数据库中存储数据,包括 Oracle、Sql Server、Mysql、Execl 或者 Txt文件、XML 等不同数据源的一个整体化数据源,它就是一个异构数据源。另外一个定义就是把数据按需要对不同数据结构、存储形式和存储方式的数据进行异地构建存储。
在当代的信息化建设过程中,网络技术的发展突飞猛进,由于众多系统互联网发展的阶段性、实时性以及人为因素的影响,造成用户积累了繁多不同存储方式、存储类型的数据,并且这些数据需要从简单的文本数据构建到复杂的网络数据,从而使这些数据构成了异构数据源。
另外数据异构的常用方法包括完整克隆、标记同步、BINLOG 方式和 MQ 方式。完整克隆,指的是将数据库 A 全部拷贝一份到数据库 B,该方法使用的情况为离线统计执行任务脚本,此时的优点比较突出,但是还存在一个致命的缺陷,就是无法适用于持续增加的数据量;标记同步适用于业务场景比较简单的情况,一般在理想情况下,数据不会发生变化,例如处理日志数据时可以去标志,再比如,时间戳发生故障时可以回溯到上一次的同步点,重新开始同步数据;BINLOG 方式通过实时订阅 mysql 的 binlog 日志,在消费到这些日志后会重新创建一个数据结构插入到新的数据库,也可能插入到其他的存储介质中,另外该方式还可以保证数据的一致性;MQ 方式在业务数据写入 DB 的同时,会同时发送到 MQ 一份,实现业务中的双写,虽然该方式比较简单,但是很难保证业务数据的一致性。
..........................
2.2 主成分分析
主成分分析主要利用数学中的正交性变化分析数据,数据中的线性相关变量会被转为不相关变量,而变化后的变量称作主成分。换句话说,PCA 将数据变换后得到的维度作为主成分,每个维度都线性无关,各维度对应的方差按从大到小的规则排列的,方差最大的维度被称为第一主成分。如下图 2.4 所示,二维数据被投射到一个轴线上,图中黑色的点表示二维平面中的点,这些点沿 L 轴的方差最大,所以可以将二维的点投射到 L 轴上,二维降为一维,做到减小维数的效果。
..............................
第三章 基于高维小样本异构数据的 PCA 算法 ............................. 19
3.1研究背景 .................................. 19
3.2高维小样本异构数据集的 PCA 算法分析 ................................... 20
第四章 基于多样本异构数据的稀疏 PCA 算法 ................................... 31
3.1研究背景 ............................... 31
3.2多样本异构数据的稀疏 PCA 算法 ..................................... 33
第五章 系统功能实现与测试 ..................................... 46
5.1数据集成模块 .................................. 48
5.1.1 小样本数据采集及预处理 ...................................... 48
5.1.2 多样本数集成模块 ................................. 49
第五章 系统功能实现与测试
不管是以往的数据主成分分析系统,还是现在的主成分分析系统,最基本的核心处理流程都是相似的。主要环节包括四个模块:多源异构数据采集、主成分分析、分类器以及结果分析。但是对于异构数据而言,还需要增加一个模块,就是分布式异构数据集成(同构)。针对不同的数据类型需要有不同的数据集成方法,所以这个模块还可以细分更多的流程。比如下文针对异构数据类型,我们细分出高维小样本数据集成模块和多样本数据集成模块。本文所提出的分布式异构数据主成分分析架构如下图 5.1 所示。后文会对该图进一步细化,针对每一个模块进行流程化分析。
..............................
第六章 总结与展望
6.1本文总结
本文的主旨在于分析不同类型异构数据的主成分分析方法,主要介绍了本课题的研究背景、主成分分析算法的研究现状、论文的研究问题和组织结构。本文的第二章主要介绍了异构数据源的概念及其集成方法,并阐述了主成分分析的概念与原理,基本的算法步骤,在主成分分析的基础上引申出稀疏主成分分析。本章的知识点是后面其他章节的理论基础。
第三章首先引出高维小样本数据集,难以避免地会含有大量冗余、不相关和噪声特征等缺陷,在分析了该问题后,本章提出基于分布式高维小样本异构数据集的 PCA 算法。首先介绍了 PCA 算法处理高维小样本数据缺陷的原因,并在此基础上提出了改进算法,以便于处理其中的误差分量,并且针对本章的数据集也引申出改进的 PCA 方法,最后叙述了整个算法的执行步骤。本章将算法与 PCA 算法进行对比分析,分别从执行时间和准确性两个方面进行了深入比较。
本文的第四章主要分析的数据模式为异构多样本数据集,在将异构数据集相似同构处理后,改进稀疏主成分分析算法的基础上,提出了基于多源异构数据的稀疏 PCA 算法。该算法首先使用数据相似度量方法和异构数据同构转换方法进行数据处理,然后使用改进后的稀疏PCA 算法进行特征选择。最后验证转换后的同构数据集 PCA 算法是否优于多源异构数据集PCA 算法,多源异构数据的稀疏 PCA 算法是否能够有效的降低计算误差,同时也验证了处理解释困难的数据集合,能否获取到更具有解释性意义的特征。
最后第五章主要介绍主成分分析系统各模块功能的实现。单模块方面,首先介绍高维小样本数据的集成方法,该方法涉及数据地采集与预处理方式。与高维小样本数据集成相同权重的集成模块为高维数据集成模块处理,其包括相似性度量实现层和同构转换实现层。后续为数据库集群管理模块的描述,该节介绍了异构数据库的管理与低维度小样本数据的存储方式。主成分分析为核心模块,包括高维小样本数据主成分分析与高维数据主成分分析模块。最后就是服务端与前端模块,详细的介绍了前端工具与后端接口的连接方式。
参考文献(略)