1 绪论
1.1 研究背景与意义
改革开放40年以来,在党的领导下,经济实现了巨大飞跃,人们的生活水平发生了翻天地覆的改变。在电商,手机支付等互联网技术的飞速进步的背景下,人民的消费观念不断升级,大消费也在GDP中的比重不断提高,如今巨大消费生态是以“信用服务”为重要支撑。信用是每个人的一张重要名片,同时信用可以连接线上与线下为消费赋能,为共享经济,新零售等新消费信用分类保驾护航。中商产业研究院发布了《2018-2023年中国消费金融行业市场前景及投资战略研究报告》,根据该报告可知:从2013年到2017年的5年时间里,我国消费金融发展非常迅速,除去住房贷款的消费信贷余额规模增速持续保持在20%以上,年均复合增长率高达24.7%。特别是在2017年,消费信贷余额达到96000亿元,同比增长62.2%,呈现爆发式增长的态势[1]。今年百行征信有限公司向中国人民银行提出了的个人征信业务申请,并被受理,这说明中国已经正式进入全民信用时代。
如何对高速增长的海量用户的信用状况进行评估是金融机构的一项重要工作,也是控制信贷成本和风险的关键举措。传统的个人征信报告和商业银行个人信用评级,已经不能满足互联网的信贷需求[2]。依赖互联网开拓出的新型应用产业如雨后春笋般不断发展壮大,比如网络信贷,例如蚂蚁花呗、蚂蚁借呗以及各种P2P借贷平台[3]。“蚂蚁借呗”通过数据挖掘技术对用户在基于支付宝的交易行为产生的数据进行分类分析,得到用户的信用评级分数,从而对用户生成可借款额度。互联网信贷信用分类下,不仅需要对用户在银行的交易产生的传统数据进行采集研究,更需要对用户的其他行为数据进行深入挖掘与研究,因此在互联网+背景下,个人信用分类评级模型研究尤为重要[4]。
.............................
1.2 国内外研究概况
基于互联网数据分析技术的信用评估相关研究一直不断进步,一开始主要是在数据的基础上进行统计分析和运筹学分析,如逻辑回归等。随着机器学习的日趋成熟,基于机器学习理论的方法也逐步应用到信用评估中,其中机器学习方法有决策树算法、 k 最近邻方法、支持向量机及神经网络等多种方法。
李卯,石庆焱,任潇等都对信用评估常用的几种方法进行了一些比较分析,并且文章中提到使用真实的数据输入来验证不同的评估方法,根据实验结论,对几种方法的优缺点进行了分析和比较。论文中指出了神经网络等非线性方法的精度高于判别分析等线性评价方法,但线性方法的稳健性高于神经网络等方法,在预测精度范围内线性评价方法还是有较强区分“好”与“坏”客户的能力,可用于信贷决策,其中特别提出了特种属性权重对结果分类的作用[5]-[7]。胡小宁、何晓群等人在 2015 年通过Logistic 信用评估模型中发现,需要建立较多的虚拟变量作为解释变量,提出了 Group Lasso 方法,结合具体的个人信贷数据,发现 Group Lasso 方法建立的模型,在变量解释和预测正确率上都是最优的[8]。李毅, 姜天英, 刘亚茹 2017 年探讨了在互联网+背景下,应用不平衡的互联网征信数据进行个人信用评估的可行性,结果证明了运用几种常用的机器学习方法对个人信用建模的可行性,并且通过对模型中的变量有效性进行探索,反驳了变量越多模型准确率就越高的观点[9]。史小康, 何晓群 2015 年利用有偏逻辑回归模型对不平衡且连续变量较多的个人信用相关的数据集进行分析,建立个人信用评级模型。证明在数据不平衡的数据集中使用有偏逻辑回归模型比逻辑回归模型的效果更好[10]。闫琳 2017 年通过对美国 P2P 网络借贷平台的发展和与中国目前的征信产业发展现状进行对比研究,为中国的征信系统,个人信用评级发展等提供建议,充分说明了健全信用评级模型的重要性[2]。施文先在 2016 年系统的分析了当前互联网信贷的发展模式[11]。吴琼在 2012 年对比了 C5.0 算法和随机森林算法在构建了个人信用分类模型中的准确性,提出了动态随机森林方法[12]。廖碧莹通过重点分析商业银行面临的风险现状论证了构建信用评估模型的重要性[13],庞素琳和吴培莎都通过商业软件中的 C5.0 算法模型构建了信用分类模型[14]-[15],王茂光等人通过对决策树算法的性能分析将商用 C5.0 决策树算法应用于信用分类评估中[16],论证了 C5.0 算法在信用评估中的高效性。综合上述论述,不难发现,信用评估和分类是当下机器学习技术应用的热门领域,且 C5.0 算法也是可靠的信用分类模型。
..............................
2 机器学习核心理论与技术研究
2.1 机器学习理论研究
2.1.1 机器学习的核心思想与发展现状
机器学习顾名思义就是计算机的自我学习,机器学习是当下最热门的一门多领域交叉学科,机器学习包含了非常丰富的概率统计学知识,运用数理统计知识处理数据的方法,结合计算机技术,实现计算机对数据规律的学习。机器学习核心理论主要是设计和分析一些可以让计算机可以自动“学习”数据深层规律的算法。机器学习的核心思想是对已有的数据集进行采集统计分析,得到数据规律,运用这种数据规律对新的数据进行预测和分析,特别是对未知新数据进行预测和分析。机器学习的研究对象是数据,从数据出发,通过特定的算法提取数据包含的共性特征,抽象出数据模型,发现数据的规律,通过对规律的运用又回到对数据的分析与预测中去。
2016年 3月,在韩国首尔四季酒店举行的谷歌 DeepMind 围棋挑战赛,人工智能围棋软件 AlphaGo以 4∶1战胜了韩国棋手李世乭九段[29]。本次比赛后,关于人工智能和机器学习的话题迅速升温,引起社会各界的关心。机器学习已经成为一种新的学科并在高校形成一门新的课程,它综合应用心理学、生物学、神经生理学以及自动化。在大数据时代,机器学习领域还有一个热点是把系统与算法结合,设计大规模分布式的机器学习算法与系统,使得机器学习算法可以在多处理器和多机器的集群环境下作业,处理更大量级的数据。这方面较为知名的系统包括:加州大学伯克利分校的 Spark、谷歌的TensorFlow、华盛顿大学的 Dato(原名GraphLab)、微软的 DMTK系统等。也许在几十年前,计算机科学的核心是操作系统、算法和编程语言。但如今在大数据的背景下,计算机科学逐渐演变成一个越来越强调跨领域合作的学科[30]。高效的将计算机系统与机器学习方法结合起来,使处理海量数据变得更加方便快捷更加准确,将是未来人工智能和计算机科学发展的关键。同时,机器学习还有很多热门的子领域,比如深度学习、自然语言处理等等,这些热门子领域都是通过与生物学的融合,对人类脑神经科学、心理学和情感分析等进行深入研究来实现的[31]-[32]。
..........................
2.2 决策树理论原理与分类
2.2.1 决策树基础理论知识
决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点,内部结点表示一个特征或者属性,叶节点表示一个类,有向边指示特征属性取值类别。用决策树分类,从根结点开始,对实例对应根节点的特征属性取值,通过有向边指示判别,将实例分配到其子结点,每一个子结点对应该特征的一个取值,如此递归的对实例进行判别并分配,直到达到叶结点,实例被分配到叶结点中。
决策树的学习实际上可以看成 if-then 原则,每一次的 if 选择就是选择一个特征属性对数据集进行分支,依此递归,直到最后找到确定的分类。而一个数据集中通常有很多的特征属性,如何选择最优的特征属性,使得在该特征确定的条件下,对分类类别的确定性最大是决策树算法的核心。同时,决策树的生成是一个递归的过程,直到不能继续下去为止,这样产生的树往往对训练数据具有很好的分类能力,准确率很高,但对未知数据的预测却没有那么准确,即出现过拟合现象,解决过拟合现象需要将已生成的树中的子树或叶节点剪裁掉,用新的叶结点代替这个子树,该节结点的类别是该节点所有实例中数量最多的类别,这是决策树的剪枝过程。因此决策树算法包含特征选择、决策树的生成和决策树的剪枝过程。
..........................
3.1 个人信用评价指标体系 ..........................14
3.2 数据采集与指标体系建立 .........................14
4 基于 C5.0 的信用分类模型实现与应用.....................26
4.1 构造模型 ........................26
4.2 实验结果分析 .........................29
5 个人信用评估系统的设计与实现......................40
5.1 系统需求分析 ...........................40
5.2 系统架构整体设计与实现 ...........................41
5 个人信用评估系统的设计与实现
5.1 系统需求分析
在完成本论文描述的基于 C5.0 算法的核心模型的训练后,首先第一个应该考虑的问题就是如何将算法进行产品化和软件化,以便用户更好的使用模型。这一过程即指的是软件工程的需求分析过程。只有正确的理解需求,深入分析需求,然后去设计和实现相应的个人信用评估系统,才能体现出算法和系统的最大价值。经过调研后,得出个人信用评估系统有以下几点需求:
(1) 友好的交互界面。能够很方便地在 PC 浏览器或者手机端进行操作和使用。
(2) 严格的权限控制和安全需求。个人信用评估数据是属于较为私隐的数据,如何加强隐私保护至关重要,因此系统必须有严格的账户体系和权限控制。数据不能轻易被无权限人员所获取。
(3) 弹性的信用评估模型。本需求也是信用评估系统的核心,要求评估模块能够准确地评估出用户信用,并且能够根据历史数据对用户信用作出实时的调整或者重新评估。
(4) 数据统计分析功能,以及批量数据导入和导出。为了方便对用户数据进行统计和分析,因此系统后端需设计支持批量数据处理的功能,并且能够通过导入或者导出功能,使数据能够通过 Excel 或者报表的格式快捷导出。
..........................
6 总结与展望
6.1 全文总结
参考文献(略)