第一章绪论
1.1研究背景及意义
随着银行信息化的发展,各银行都建设了包含核心业务系统、信贷系统、卡系统、中间业务系统等一系列的银行业务系统,以及管理会计系统等抉择支持系统。它们构成了银行业务处理的基础,大大提高了银行的业务办理效率,为实施金融交易提供了有利的保障。银行各业务系统易形成信息孤岛,而且各业务系统之间的互相访问,使得管理信息化难度增大。为了解决这些问题,银行纷纷进行数据大集中工程,建立集中式数据中心。
银行的发展依赖于敏锐的市场意识和反应能力,数据大集中的一个最终目的,便是对客户信息进行分析和评价,明确市场和拓展方向,寻求银行新的利润增长点。
“谁拥有更多信息,谁就拥有未来”[2]。然而,数据大集中后数据中心数据量巨大而信息贫乏,己成为我国银行业数据管理应用的普遍现状。由于各种原因,如数据录入错误、数据不一致、银行各信息系统存在于不同硬件平台上、不同操作系统、各系统数据表示方式不同、源数据本来就有数据质量问题等等,导致数据大集中后会存在多种形式的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、空值、不一致值、缩写词不同,不遵循引用完整性等。因而数据有必要对数据中心的数据进行数据清洗,以得到准确的客户信息。
银行,尤其是商业银行与一般的工商企业是一样的,都是以获取利润作为企业发展的目标,那么怎么样获取最大的利润,成为他们的关注重点。通过数据挖掘,可以对客户进行分类,分析客户行为、关注点等,来发现客户的行为规律。通过对客户进分类,为不同的客户群体提供不同的、独特的服务,从而提高客户意度,这样能有效地防止客户流失,且能很好的拓展新客户。由此可见,数据挖掘对银行的盈利有着非常重要的意义。
本文在银行数据仓库过程中对数据进行清洗,旨在使数据仓库中的数据都有
.........................
第二章数据清洗与数据挖掘
2.1数据仓库
2.1.1数据仓库定义
“数据仓库之父” W.H.Inmon认为数据仓库(Data Warehouse)就是面向主题的、集成的、稳定的、随时间不断变化的数据集合⑴,用以支持经营管理中的决策制定过程。
银行数据仓库整合银行从过去某一时点到目前各个阶段各个业务系统的各种类型和格式的数据,进行系统加工、汇总和整理,形成一个完整而一致的银行全局信息库。数据按照方便进行决策分析的主题进行分类、组织,其中包含了如存贷款状况、利润状况及信贷风险程度等客户信息,这样的数据集合便于信息分析和信息挖掘,用于支持管理决策。
2.1.2银行数据仓库体系结构
银行建立数据仓库系统的目的,在于建立一个包含银行核心、信贷、贷记卡、中间业务以及国债、黄金等所有业务的信息库,为全行财务管理、绩效考核、风险控制、客户关系管理、客户贡献度分析和资产负债管理等提供有力、科学的决策支持。
目前,数据仓库的构建包括业务模型设计、概念模型设计、逻辑模型设计和物理模型设计[ie]四个层次,这四个层次在整个数据仓库模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术。数据仓库的建模方法主要有数据仓库之父Inmon提出的范式建模法(ThirdNormalForm, 3NF)[n]、Kimball博士提出的维度建模法[I2,"3】和实体建模方法[14]。关于数据仓库建模方法的选择,Kimball博士的观点认为数据仓库仅仅是构成它的数据集市的联合[15],主张数据仓库建模要以事实维度为基准,而数据仓库之父Inmon反驳“在大海中可以捕到很多的小鱼并堆积起来,但是它们仍然不是
.........................
第三章银行数据仓库构建过程中的数据清洗..............20
3.1 Datastage 简介................20
3. 2银行数据特点.................20
3. 3数据清洗....................20
3.3.1清洗对象....................20
3. 3. 2清洗流程..................21
3. 4相似重复记录的清洗.......................22
3. 4. 1相似重复记录检测方法.......................22
3. 4. 2简单整合方法.....................22
3.4.3分组整合算法.......................23
3. 4. 3. 1基本定义.........................23.
3. 4. 3. 2数据预处理....................24
3. 4. 3. 3分组整合算法.......................26
3.5本章小结.................... 28
第四章银行数据仓库中的VIP客户挖掘....................29
..........................
第五章实验结果及分析
5.1实验环塊
实验环境:8 个 64 位 3.50GHz POWER6 处理器,32GB 内存,AIX5.3.1.2 (64位)操作系统,IBM P550为ETL和数据库服务器,数据库为Oracle lOg (64位),以Datastage 8.5 EE实现数据清洗和数据挖掘工作。
5.2实验目的
5.2.1数据请洗目的
本文数据清洗分布于银行数据仓库构建过程中的各个步骤,目的就是为了得到高质量的数据,保证应用于数据仓库前端的决策支持系统产生正确的决策分析结果。相似重复记录的清洗,是数据清洗的主要工作。实验除了验证本文提出的数据清洗模式的有效性,针对相似重复记录的清洗,比较邻居排序算法、多趟邻居排序算法、优先权队列算法以及本文提出的分组排序算法的清洗结果,从清洗的数据质量和清洗时间来验证分组排序算法的有效性。
5.2.2 VIP客户挖掘目的
数据清洗使数据仓库中数据的准确有了保障,在此基础上对数据仓库进行数据挖掘,按照确定的挖掘任务对客户按照其综合贡献度进行分类,挖掘出银行VIP客户的。实验验证本文VIP客户挖掘方法的有效性。
.........................
第六章总结与展望
6.1总结
本文的主要研究工作如下:
(1)详细介绍了数据清洗、数据仓库和数据挖掘的概念,以及使用的主要技术和方法。
(2)对国内外数据清洗和数据挖掘的研究现状进行了系统的综述和分析,并对银行数据仓库构建过程中的数据清洗技术和基于数据仓库的数据挖掘技术,尤其是优质客户的挖掘做了深入的研究。
(3)结合某农信银行数据处理特点,介绍了银行数据仓库的体系结构。
(4)详细介绍了银行数据的业务特点,并结合此特点详细分析了产生数据质量问题的原因,并给出了适合于银行的数据清洗模式;详细介绍了几种主要的相似重复记录清洗算法,并对比其优缺点,然后给出了适用于银行业的相似重复记录清洗方法。
(5)对于数据挖掘,详细介绍了分类、数据挖掘的功能和数据挖掘的基本流程,结合某农信银行的业务需求,确定数据挖掘模型;根据确定的数据挖掘模型,结合银行挖掘需求,给出了客户存款贡献度、贷款贡献度、借记卡交易贡献度和贷记卡消费贡献度等客户指标,进一步给出了客户综合贡献度的计算公式;确定客户等级划分策略以及客户筛选评级规则。
6.2展望
银行业竞争非常激烈,各银行为了提高竞争力,都在不断推出各自的有竞争力的营销产品,数据挖掘技术为银行推出的营销产品提供了有力的数据支持。数据挖掘技术能在大数据集中挖掘出潜在的信息和知识,对为企业管理层的决策和管理做支持。在银行业中,利用数据挖掘技术能够帮助银行整理客户信息,对客户进行分类,从而筛选出自己的优质客户,并为优质客户提供优质服务。通过分析客户的盈利能力、客户背景、客户满意度和客户的信用度,可以动态的了解客
参考文献(略)