本文是一篇文献综述,文献综述根据研究的目的不同,可分为基本文献综述和高级文献综述两种。基本文献综述是对有关研究课题的现有知识进行总结和评价,以陈述现有知识的状况;高级文献综述则是在选择研究兴趣和主题之后,对相关文献进行回顾,确立研究论题,再提出进一步的研究,从而建立一个研究项目。(以上内容来自百度百科)今天网为大家推荐一篇文献综述,供大家参考。
第一章 绪论
1.1 课题研究背景
计算机的普及,带来了各行各业信息化的飞速发展,从而使得电子数据变得非常的普遍。特别是随着当今大数据的崛起,大至国家层面,小至个人用户,开始越来越关心自己的数据以及数据携带的隐藏信息,而这些数据都来源于各信息化系统。而各信息系统之间未能有效联系在一起。随着数据量的不断增大,数据所包含的纬度也越来越复杂,这导致了系统之间的信息孤立现象越来越明显,在一定程度上导致不能对数据进行有效地利用。因此,各个行业,包括金融、医疗、政府、教育等,都在紧锣密鼓的建设自己的数据中心,对数据进行集成、分析和处理,能够在数据中心中高效率地得到有意义的数据。为了满足数据在属质量方面完整性、准确性、一致性和实践性等要求[1],数据如何保持干净的议题早在多年以前就被提出,而如何保证由各个不同来源的数据集合在某一处,对脏数据进行分析、研究及处理,以使经过清洗处理后的数据能够在数据质量方面得到保障。但根据当前的信息化状况,数据的来源有可能从各个不同的业务系统而来,面对复杂的信息交流,用户输入的往往是只符合自身需要的数据和信息,数据很多时候是不完整的,甚至本身就是有质量问题的,即使经过数据清洗处理,仍然出现数据质量问题[2]。随着时间的推移,数据的整体质量又会在整个信息系统的使用过程中迅速降低。因此,如果想要得到更加有价值的信息,提高数据源的可用性和多样性,数据中心和业务系统的数据质量便成为了非常重要的因素,数据质量检测环节变得不可忽视。因此,对数据质量进行深入有效地分析,并建立起行之有效地检测工具,是本文的重点工作[3]。本课题属于对当前数据中心建设过程中的实际应用研究。目前,我国信息化建设处于快速发展阶段,规模不断扩大,各环节流通的数据体量攀升非常快,因此有必要将各部门信息系统里的数据整合到数据中心来,之后根据实际需求为相关部门提供数据。本课题旨在研究一种数据质量检测方法,从不同角度出发构建多种检测规则,在数据质量上对数据中心的数据进行检测分析。
.........
1.2 国内外研究现状
1.2.1 数据质量
在对数据进行管理的过程中,发现数据有好有坏。在信息爆炸时代,信息产业以数据为载体和媒介进行交互中,就必须保证数据的质量,这就牵涉到数据质量的问题[4]。数据质量的概念在很多研究方向中出现,最早出现在上世纪六十年代的统计学研究中,接着在上世纪八、九十年代计算机的研究中被提出来,这也是信息技术迅猛发展的必然结果。数据质量的研究涉及到较多的领域,可以借鉴已有的、相对较成熟的领域,并结合数据本身具有无限复制、创造等特点展开研究。随着研究的逐步深入,对数据的质量管理实践中发现诸多问题,如怎样判断数据质量的优劣、数据质量问题产生的原因是什么、对于有问题的数据如何解决等。数据质量的准确定义是什么?迄今为止,学术界并没有形成统一的意见。目前,能够被较多人所接受的解释是,企业在任何时候都可以信任满足所有需求的所有数据。为了能够对数据质量进行有效地分析和评估,将数据质量划分成若干个质量纬度,从各个纬度上的符合情况对数据质量进行评判。不同学者根据其侧重点不同,确定了超过 200种纬度。总体来说,主要在以下六个方面进行判断:准确性、完整性、一致性、及时性、可理解性和可获取性[5]。
........
第二章 数据质量检测总体模型设计
从前文可知,随着数据量的不断增大,数据质量问题已经开始阻碍有效信息的提取和使用,成为了数据管理中亟待解决的问题,数据质量检测的研究刻不容缓。本章将重点介绍数据质量检测工具的总体设计思路,为数据质量检测工具的实现提供理论依据。本章将主要从以下几个部分展开介绍:第一部分,主要介绍数据质量检测工具模型,从理论上对数据质量检测方法的模型进行研究和分析;第二部分主要介绍数据质量检测工具的需求分析,描述相关功能需求,第三部分主要介绍数据管理工具的框架体系。
2.1 数据质量检测模型
建立数据质量检测工具模型的主要思路是,通过建立数据质量规则,对数据的质量进行检测,从而对其质量进行判断和评价。在图 2-1 中展示了常规的检测模型结构,在本章节中,我们主要根据该图进行阐述,并着重分析数据质量模型的结构和组成[14]。数据对象指的就是数据质量检测模型中需要进行质量检测的数据。在对数据的质量信息进行采集之前,首先就要能够深入了解数据的属性,掌握关键数据的含义、来源、存储方式。数据质量信息采集指的是对数据对象在数据质量方面的属性进行采集。数据所包含的信息差异一般是由数据结构的不同所引起的,因此在进行数据质量信息采集之前,需要考虑各方面的因素,使数据对象能够统一的方式进行存储,只有这样才能进一步开展后续工作。数据质量规则是指根据用户需求,对数据属性制定相应的约束规则。这些规则有针对性地对数据对象的某一个或几个属性进行约束,使得处理后的数据在该属性上不会存在质量问题。质量检测是指根据事先制定的质量规则对数据对象的质量进行检测和判断。如果数据质量与数据规则相悖,那么该数据就存在质量问题,而检测工具则应根据存在的问题自动或手动制定执行计划。质量评估及报告指的是通过对质量检测结果进行统计分析[15],可以对数据质量的准确性、一致性以及完整性进行评估,并生成报告,使得数据管理人员能够对数据中心的数据质量有一个宏观的理解。问题分析及处理指的是对数据质量问题产生的原因进行分析,根据数据与数据的关系,对一些问题进行自动处理,例如,对空值进行自动填充等。通过对数据质量检测模型的研究分析,明确了数据质量检测方法的流程,为数据质量检测工具的构建提供相应的理论依据。
..........
2.2 数据质量检测需求分析
为了能够有效地处理质量问题,在数据质量检测理论模型的基础上,需要找到一种数据质量检测方法,即开发一个数据质量检测工具,能够对数据质量问题进行检测和处理。我们将对数据质量检测工具的需求进行分析。数据质量检测工具需要满足以下要求:(1)数据质量检测工具对数据对象有采集和处理的功能,包括数据对象的数据信息和元信息;(2)数据质量检测工具能够根据数据对象的质量属性和质量规则,生成质量控制规则,还能够对规则的详细内容进行修订;(3)数据质量检测工具能够根据事先制定的质量规则对数据质量进行检测;(4)数据质量检测工具能够对质量检测结果进行统计分析,并对数据对象的整体质量进行评估并产生报告;(5)能有效对数据产生的质量问题进行多方面分析,对一些问题进行自动处理。根据上述 5 点要求,并与我们提出的数据质量检测模型相结合,具体将数据质量检测工具的功能需求分为以下几个部分[16]:数据源包含了许多元数据,数据除了需被有序得保存之外,更重要地,是对其进行科学有效地管理工作,只有在这前提下,数据才可能被调用。数据库中有类型各异的数据库,例如关系数据库,半结构化数据库和非结构化数据库,我们需要针对不同类型数据库中的数据对象、结构和属性进行相应地操作。因此,数据质量检测工具首先要能够在不同数据库中有效地获取数据。这要求数据质量检测工具能够识别数据库类型。另外,对于获取到的数据对象,数据质量检测工具要能够进行访问、修改等操作[17]。
...........
第三章 数据质量检测方法的实现.....17
3.1 数据源管理 .........17
3.2 质量规则库的构建 ........18
3.3 基于表达式树的数据质量规则的描述方法 ............20
3.4 以实际情况依存的数据质量规则的存储及识别 ....25
3.5 本章小结 .............29
第四章 数据质量检测系统的实现与实验分析.......31
4.1 数据质量系统实现方法 ...........31
4.2 具体设计 .............33
4.3 数据质量检测的逆规则 ...........37
4.4 异常数据的识别 ............39
4.5 数据修复框架 .....43
4.6 系统实现与分析 ............47
4.7 本章小结 .............56
第五章 总结与展望.......58
第四章 数据质量检测系统的实现与实验分析
数据质量检测可通过不同的方法和算法去实现,从而更好地去发现数据中存在的错误、纰漏以及相关问题。在本文中,将有两种不同的检测模式对数据进行研究,第一种是利用统计方法和数据挖掘的方法进行检测,另一种则是在质量约束规则的前提下进行检测。由于第一种方法纯属自动化操作,因此计算机对于数据中包含专业术语、特定场景等相关数据无法理解,导致其检测范围亦有限,因此选择第二种方法更佳。因此,本章将使用质量约束规则的方法对数据质量进行检测。通过寻找显式规则所对应的逆规则,并将其运用到数据源,对数据源进行检索和统计,从而检测出异常数据,这种方法通常可有效识别出数据质量问题。对于关系数据库,则能将其转变为 SQL 语句,xml 数据集,则运用 XQuery 将能更好处理。
4.1 数据质量系统实现方法
在上图中,在数据仓库中可根据需要采集数据,利用预设定好的规则对数据进行校验,即可将不合格的数据判定为异常数据;而系统实施人员则相当于该系统的后台管理者,具有最高权限,可对系统的规则、问题数据等各方面进行设定;业务人员则是原有信息化系统的使用者,在获取到异常数据后,可对信息化系统产生的数据进行修正,数据质量系统将同步更新该修正信息。大型数据通常用二维表的方法进行保存,同时,结构化的数据亦被优先导入到关系数据库中,而后再进行质量检测和修复。另外,在得到相关逆规则后,算法考虑的是如何将该规则有效地转化为可被执行的 SQL 语句。一般简单的 SQL 语句即能对异常数据做出判断和选择。图 4-8 为运用基本的规则所对应的逆规则进行异常数据检测的方法。
..........
总结
在信息化时代,特别是在如今信息爆炸的环境中,随着企业业务的扩张,数据量也随之以指数式增长。数据的重要性不言而喻,只有足够准确和有意义的数据才能被有效利用,否则将大大浪费企业的人力物力。在企业的信息化系统中,数据的流通过程复杂,数据的来源也多种多样,从不同地方过来的数据流进数据中心的时候,需对数据质量进行一定程度的检测和修复,方能将数据提供给各部门使用,但实际上,数据在信息系统的循环中,质量或多或少地出现不同问题。基于以上出发点,本论文主要从数据质量的定义、整体架构、实现方法以及应用等几方面入手,对数据质量进行了研究。论文首先对数据质量的研究背景入手,介绍了数据质量的定义、发展进程以及前景展望;然后对数据质量管理工具的总体设计进行了阐述,并建立了模型,验证模型的可行性;其次阐述了如何构建质量规则库的方法,本文主要使用树型结构,即 q-ET 的方法,并用 xml 方式进行储存;最后,在数据质量检测的应用中,开发了数据质量检测系统,得出结果并进行了分析。本论文虽然对数据质量的几个问题进行了研究,但仍存在许多不足,例如,建立规则库的过程中,考虑得不够充分。本文仅仅罗列了几个简单的规则,但由于企业的数据量较为庞大,数据来源丰富,在处理这些数据的时候需要综合考虑多方面的因素才能制定不同的规则,另外一个需要注意的问题,则是如何使不同规则之间不产生冲突,使所有规则都能相互包含,相信这又是另一个值得研究的方向。另外,若能更为充分地运用统计工具,结合数据挖掘的理论,对如何有效提高数据识别的效率,也是需要考虑的问题。数据质量的研究是一个非常深入的问题,短短的篇幅只能针对个别问题进行研究,如何对数据质量建立起一套完整的研究方法和行之有效的应用准则,从而为信息化企业提供更多的帮助,是接下来所需要做的工作。
..........
参考文献(略)