第 1 章 绪论
1.1 研究背景和意义
1.1.1 研究背景
随着我国金融体制改革进程的加快和国民消费收入水平的大幅提高,信用总规模和个人信用规模也随之不断扩大,个人消费信贷业务得到了快速发展,以住房按揭、汽车贷款、教育贷款为代表的信贷业务范围不断扩大。中国人民银行统计数据显示,截至 2015 年 4 月末,全国金融机构本外币消费贷款以达 16.33 万亿元人民币,占金融机构各项贷款比例达到 17.71%,且近年来呈稳步增长趋势。然而我国商业银行信贷业务风险管理水平却未能跟上信贷规模扩张的步伐,严重制约着我国个人消费信贷业务的进一步发展。因此为了跟上商业银行信贷规模逐渐扩大的趋势,进一步规避信贷风险,确保资金安全,需要建立一套有效的个人信用评估系统,其核心在于信用评估模型的开发。个人信用评估在金融分析领域中本质上是非常重要且具有挑战性的数据挖掘问题,主要是综合考察影响个人信用的内外在客观因素,对其进行分类的过程。个人信用评估可以看作模式识别领域的一种二分类问题,因此模式识别中各种分类器作为信用评估模型广泛地应用于个人信用评估系统中。本文中应用于个人信用评估系统的组合模型也称为多分类器系统,相应地组合方法称为分类器融合方法,用于组合的单一模型即为多分类器系统中的基分类器。
目前常用的单一模型主要由统计学、运筹学、非参数估计和人工智能等方法构造,并且很多单一模型已经在个人信用评估中得到了很好的应用。随着计算机软硬件技术的快速发展,研究者对这些模型进行了进一步的优化和改进,然而在单一模型优化的过程中发现在提高单一模型的判别精度的同时可能会损失一定的稳健性,而且各单分类器的误差集并不重合,即存在差异性和互补性。为解决这一问题,1990 年 Suen 进行了多分类器融合方面的研究,即建立分类器组合模型。Soner(2012)采用信用数据进行了组合模型研究,结果表明其建立的组合模型在精度和稳定性方面优于单一模型。大量的理论与实验结果表明,组合预测模型往往比单一模型在精度、泛化能力和鲁棒性方面体现出更多的优势,因此组合模型的构建得到了越来越多研究者的重视。建立组合模型即多分类器系统的关键在于选择进行组合的单一模型(基分类器)、采用合适的分类器融合方法以及确定判别组合模型优劣的标准。多分类器系统构造时通常采用“过度产生—再选择”的方式。
......................
1.2论文研究主要内容
本文研究旨在建立一种基于分类器选择的个人信用评估组合模型,研究内容包括基分类器池的构建、分类器选择标准的确定、最优基分类器子集的搜索方法研究和分类器融合方法的选取。
一般而言,多分类器融合之前要先构造一定数量的单分类器(即候选分类器),组成基分类器池,然后从中选择一个最优的子集进行融合。基分类器池构建的主要工作是对现有的多个分类器进行筛选,筛选标准包括精确度和差异性。本文最重要的内容是分类器选择方法研究,包括选择标准的建立和最优子集搜索算法的研究。分类器选择即从基分类器池中选择最优子集,分类器选择的关键是建立合适的选择标准。而搜索方法的研究包括穷举法、贪婪算法、PBIL(Population-BasedIncremental Learning)算法等。融合方法选取常用的两种,即投票法和行为知识空间法,并对其融合效果进行比较。通过上述的研究过程,最终为个人信用评估问题提供一套有效的组合模型建立方案,包括基分类器池的建立方法、综合考虑分类精度和差异性的分类器选择标准、一种快速有效的最优基分类器子集搜索算法、各融合算法对信用评估问题有效性的比较。本论文共分为四章,研究结构图见图1-1,各章内容如下:
第一章,绪论。主要介绍研究背景和国内外的研究现状,在总结现有研究成果的基础上分析个人信用评估领域的发展方向,说明本文的研究意义,介绍本文的内容结构和研究方法。
第二章,分类器选择标准和融合方法。对现有的分类器选择和融合理论进行阐述。分析各类选择标准和融合方法的适用条件和优劣势,提出建立新型的分类器选择标准的重要意义,分析了可用的几种思路,为文章后续模型的建立提供理论支持。
第三章,基于分类器选择的个人信用评估组合模型构建。首先是基分类器池的构建,根据基分类器的特性及其在个人信用评估系统中的准确率、差异性等指标选取常用的多个单一分类器组成分类器池。然后从基分类器池中选择多个基分类器进行组合,最常用的选择标准是组合模型精度和差异性,本文建立了兼顾分类精度和差异性的分类器选择标准。本章包括对各种差异性指标的理论研究,以及最终分类器选择标准的确定。另外考虑两类误判损失的差异,对最小误判损失进行分析,并将组合模型的最小误判损失作为分类器选择的标准之一。进行了最优基分类器子集搜索算法的研究,目的是使分类器选择过程快速有效。选取的融合方法为投票法和行为知识空间法。
第四章,个人信用评估组合模型的应用。选择样本数据并进行预处理,对本文建立的个人信用评估组合模型进行检验,对组合模型的评判效果进行分析比较,说明本文组合模型在提高判别精度和降低误判损失方面的作用。对不同的融合方法、选择标准、搜索算法的结果进行对比,为组合模型的进一步优化打下基础。
......................
第 2 章 分类器选择标准和融合方法
2.1 分类器选择标准
现在可用的适用于个人信用评估的基分类器种类繁多,传统的方法只是简单地使用了所有的基分类器进行组合,这样会存在两个问题:一是基分类器过多会导致运算复杂、耗时长;另一个更重要的问题是,如果使用经过某种方法挑选得到的基分类器子集形成多分类器系统,其与直接用全部的基分类器进行融合相比,分类性能有可能会更好。因此建立适当的选择标准对基分类器进行选择是必要的,即需要进行选择性集成。分类器选择方法分为静态法和动态法两类:静态选择方法是对训练样本进行处理,得到对训练样本分类结果最优的基分类器集合,融合后用于对新样本(或测试样本)的分类预测;动态选择方法是在对新样本(或测试样本)进行分类预测时,依据样本的属性以及基分类器在训练样本中的分类效果实时进行分类器选择。本文采用的是较为简单的静态选择方法,在分类器选择方面的研究重点是分类器选择标准的建立。目前最常用的分类器选择标准是分类精度和差异性,前者意味着基分类器本身需要具有一定的分类精度,后者认为采用没有差异性或者差异性较小的基分类器进行组合时可能不会提高分类精度,并且会导致组合模型复杂。
2.1.1 分类精度选择标准
分类器组合的直接目的就是提高分类精度,因此,最常用的分类器选择标准是组合模型对样本的分类精确度。该方法需要先建立多个组合模型,以组合精度为标准进行评估,最优的组合模型包含的基分类器即为最终选取的分类器。另外一种常用的概念是平均分类精度,对所有的基分类器分类精度进行统计,从中选取基分类器平均分类精度最高的一个子集进行组合,这样就不需要先建立组合模型,直接通过逐一分析预测选取多个基分类器进行融合。两种方法相比,第一种更直接,精度更高,但是需要先确立融合规则,在此基础上确定要用的基分类器;第二种方法精度相对会差一些,直接通过基分类器的分类精度进行选择,通常倾向于选择平均分类精度较高的几个进行融合,因为分类精度较高的几个基分类器组合倾向于得到较高的融合分类精度,方法原理简单,不需要考虑融合方式。
综上,分类精度标准的优势是能够获得精度较高的组合模型,且原理简单、易于软件实现。其缺点是无法排除相似分类器,容易导致最终的多分类器系统所包含的基分类器个数较多,运算复杂,甚至可能因此降低分类精度;另外应用于个人信用评估模型时,缺乏对两类误判的现实意义考虑,实用性大打折扣。分类精度选择标准的意义在于其表现分类器的本质特性即分类效果,适用于大多数要求较高判别精度的场合,另外在一些样本量较少的场合,组合模型的复杂性就相对次要,而且采用分类精度作为分类器选择标准能够尽量减小样本信息的损失。
......................
2.2 分类器融合方法
目前国内外已经在分类器融合方法投入了大量的精力,获得了大量分类器融合方法,本文首先需要对这些融合方法进行分类和总结,从中选择适合个人信用评估问题的分类器融合方法。如图 2-2 所示,n 个不同的基分类器对同一样本进行处理后获得 n 个匹配值(输出值),再采用某种组合方法对所有输出的匹配值进行组合,得到的输出结果即为多分类器系统的最终决策。
对于多分类器系统而言,基分类器的输出形式在很大程度上决定着可以选择的融合方法。一般而言,我们可以把分类器的输出形式分为三个等级:
1) 决策层输出:只对样本进行分类,输出结果只是样本类别即只输出分类决策结果而不含其它信息;
2) 排序层输出:输出结果为所有可能类别的概率大小排序,而不是将样本判断为某一类别,类别比较多的问题中通常会出现这类输出形式;
3) 度量层输出:结果输出形式为度量数值,表示概率或距离度量等。
通常高级别的输出结果代表能够用于融合的信息更多,最终得到的多分类器系统的输出结果也就会更好,但是在实际上高级别的输出结果的问题并不多。另外,不同的级别的输出结果有时还能够相互转化。一般高级别的输出形式都可以转化为低级别的输出形式:度量级可以向排序级转化,而排序级又可以向决策级转化。由此可见,低级别输出形式的多分类器系统所采用的融合方法也适用于高级别系统。
.....................
第 3 章 基于分类器选择的个人信用评估组合模型构建....................22
3.1 基分类器池的建立..............22
3.2 分类器选择标准的建立.........27
3.2.1 以组合模型的分类精度为选择标准......27
第 4 章 个人信用评估组合模型的应用....................35
4.1 样本数据及指标选择......................35
4.1.1 样本数据的选取..................35
4.1.2 指标选择........................35
第 4 章 个人信用评估组合模型的应用
对个人信用评估模型进行实验验证。首先对样本数据和指标进行筛选并从中分别选取训练样本和测试样本;然后将训练样本用于对单一模型和组合模型的训练,采用测试样本对训练得到的模型进行检测;最后对本文分类器选择方法、最优子集搜索算法和分类器融合方法的实证结果进行分析比较。
4.1 样本数据及指标选择
4.1.1 样本数据的选取
建立个人信用评估模型时,样本数据的质量会关系到最终获得的模型,训练样本的选取会影响到训练得到的模型参数和系数,从而会影响个人信用评估模型对输入样本(或测试样本)的分类。个人信用评估中的误判(分类错误)分为两类,第一类误判即将未违约客户判断为违约客户,将会损失掉信贷利息,第二类误判即将违约客户判断为未违约客户而造成的损失,与本金和利息均相关。前者会在使得银行信贷资金无法得到充分利用,不利于信贷业务的拓展,甚至影响到正常业务的运行;后者则会给商业银行造成巨大的经济损失。由于这两类误判的影响不同,在建立个人信用评估模型之前进行样本数据选择时,要求样本数据真实有效,且通过科学的抽样方法使得样本具有随机性。另外需要足够多的样本数据以保证其能够反映总体情况,在此基础上训练出分类效果好、适用性强的个人信用评估组合模型。
根据上述样本数据选择原则,为了保证本文样本数据的真实可靠,所选取的个人信用样本数据来自来深圳某商业银行。根据随机抽样原则从该银行信贷数据库中选取样本数据,这些个人信用样本共 4500 个,包括个人消费贷款和住房贷款等。对样本数据进行分析时,我们需要考虑计算成本,与此同时为了保证足够样本量,本文从上述所有样本中随机选取了 1076 个,将选取的样本分为训练样本和测试样本分别用于本文个人信用评估组合模型的建立和实验验证。选取时违约样本与未违约样本的比例为 1:1,即选取的个样本数据中包括 538 个未违约样本和等量的违约样本。
......................
结论
本文从个人信用评估问题的经济学含义出发,对个人信息指标进行筛选和优化;对现有多种单一模型进行研究分析,并在此基础上建立基分类器池(包含所有可供选择的单一模型);通过研究现有的多种不同的差异性度量方法,建立一种兼顾差异性和分类精度的分类器选择标准,考虑到个人信用评估问题的特殊性,建立了一种银行误判损失的计算方法,并将组合模型误判损失作为分类器选择的另一个标准,以使本文方法在商业银行信贷风险规避中更具实际意义;设计一种适合于本文分类器选择问题的全局搜索算法;对两种常用的组合方法即投票法和行为知识空间法进行研究,比较其在个人信用评估中的效果。最终完成分类器选择并建立了个人信用评估组合模型。模型由基分类器池、两种分类器选择标准、PBIL最优子集搜索算法和两种融合方法组成。
本文研究得到的结论如下:
1. 建立了适合个人信用评估问题的基分类器池,并从中选择基分类器子集进行融合。进行分类器选择时需要建立合适的选择标准,分类器选择标准的研究内容包括各种差异性度量指标、组合模型精度和组合模型误判损失。单纯以差异性度量为选择标准显然是不合适的,而只以组合模型精度为选择标准又会导致运算量过大且得到的组合模型相对复杂,基于以上考虑本文采用组合模型精度辅以差异性阈值的选择标准,以加速搜索算法收敛和降低组合模型复杂性;采用组合模型误判损失作为分类器选择标准,以考察误判损失模型的实用价值。
2. 进行了最优子集搜索算法的研究。对常用的两种搜索算法而言,穷举法精度高但是速度最慢,可作为评价其他搜索方法有效性的标准;贪婪算法实现起来比较简单,收敛速度快,但是容易得到局部最优值而不是全局最优。而 PBIL 算法不但搜索速度快,而且可得到全局最优的结果,本文根据建立的分类器选择标准对 PBIL 算法进行改进,优化搜索效果。其他的相关搜索算法,比如随机爬山法和基因算法等,需要进一步研究。
3. 采用个人信用数据对本文组合模型进行验证和分析,模型运行结果表明以分类精度和差异性结合的选择标准可以在保证组合模型分类精度的同时提高运行效率;最小误判损失选择标准可以有效降低两类误判带来的损失,使组合模型更具实际价值;本文的 PBIL 最优基分类器子集搜索算法能够获得全局最优组合,而且其收敛速度也比较理想;行为知识空间法组合模型的分类精度要高于投票法,但是其组合模型复杂度相对较高。
参考文献(略)