本文是一篇工程管理论文,笔者发现图算法对于交易流水数据具备显著优势,应用后可大幅提升欺诈识别效果。图算法由于其效率优势,在团伙识别领域具有较大优势,可通过社区发现等算法结合专家经验全面提升团伙识别效率。
第一章 绪论
第一节 研究背景
一、我国信用卡发展历史:未经历完整周期
中国信用卡自1985年中行发行第一张准贷记卡开始发展,至今已跨过26个春秋,历经4个重要的发展过程:
第一阶段初生萌芽:1993年改革开放后,我国提升了大力发展信用卡的倡议,确定了信用卡作为重要金融工具的地位,以IC电子卡、电子化系统为媒介大大加快了我国信用卡行业的发展,提升人民生活工作用卡的便利性。
第二阶段急剧变革:2002银联成立,2006年人民银行征信系统建立上线[18],与此同时信用卡中心体制创新,工行牡丹江中心、招行信用卡中心等先后成立,独立运行改革创新。行业外1997-2000年百度、新浪、网易、腾讯、搜狐、阿里巴巴等国内互联网公司先后成立,并挺过了2000年全球科技网络泡沫,逐步开始实现净盈利,互联网力量在国内迅速发展壮大。
第三阶段精细运营:2007年-2009年由次贷危机引起了全球金融危机,信用卡发展速度收到巨大冲击,速度放缓。是否可以经营好前期在规模化经营中获得的客户成为决定各信用卡机构转型成败的重要因素,精细化运营是本阶段的主旋律。
第四阶段高速增长:2012年移动互联网获客、围绕APP经营等成为了各家发卡行在此移动互联时代的主战场。2015以来信用卡期末授信总额成线性增长趋势逐年攀高,同时考虑到 “有钱花”、“微粒贷”等互联网平台的渗透,实际上全国信用支付产品覆盖率将远远大于人均0.53张。
反观我国信用卡行业成长的四个重要阶段,我国信用卡发展并未像发达国家信用卡成熟体系一样实现一个系统的轮回。2020年从天而降的新冠疫情对整体经济发展趋势造成较大影响,我国居民消费作为经济新常态发展的重要抓手,所受影响更加明显,信用卡行业因此受到了巨大挑战宏观层面信用卡行业主要受疫情和中美关系影响较大。
.............................
第二节 研究意义
回顾过去5年,消费金融行业的周期变化,互联网金融的野蛮生长催生的各行各业的经营变形,未能真正践行客户面的普惠金融,反而快速形成了共债风险周期,中美关系与疫情加快了整个行业的震荡及风险暴露。
本文认为在当前严峻的信用卡风险形势下,同时个人信息保护意识日益加强,风控场景可合规使用的数据大幅缩减,银行业势必需要使用创新的Fintech工具更有效更全面的将风险关联识别出来,提升风险提前预警效率,降低风险损失。关联图谱技术通过创新的图数据库技术更快更好的实现数据多层关联,发现隐蔽风险。
当前银行业关联图谱应用大都处于可视化验证阶段,在图模型、图分析场景较为欠缺,更多的依赖重人力审核,本文试图通过系统的选型验证,选取构建适合信用卡风控场景的图模型,提升欺诈风险及团案风险识别效率及效果。
工程管理论文怎么写
..............................
第二章 关联图谱相关技术原理介绍
第一节 图数据库介绍及选型
图数据库相关技术从上世纪70-80年代开始萌芽,历经40余年的发展,已成为当今发展最迅速、最有前景的数据库系统框架之一,在国内外有着广泛及深入的推广应用。
之所以图数据库能够如此快速的成长,有以下背景,近年来随着大数据时代的到来,各行各业的数据都成指数型增长,甚至图片、语音等非结构化数据均可进行结构后用于挖掘,当数据量增大时传统的数据库产品已无法满足场景的需求。非关系型数据库以其优越的字段扩展性和适应时代的海量数据存储得到了业内的重用,成为了大数据时代人工智能等发展的助推器。
图数据库是通过以点和边的图形式重构数据,克服了巨大、复杂的数据挑战。传统数据库只能通过不直观的数据结构形式来描述问题,层叠交错;把错综复杂、相互关联的关系通过图这种自然的数据结构形式展示,简洁明了。
图数据库作为非关系型数据库的重要分支,当前主要有两大类,neo4j、tigergraph等基于原生图结构存储的原生图数据库,arangodb、janasgraph等基于分布式大数据存储的基于Apache Tinkerpop生态的非原生图数据库,下表2-1中选取了典型的原生图数据库(neo4j)及非原生图数据库(JanusGraph、HugeGraph)进行功能性特点分析对比。
..........................
第二节 图算法介绍
近年来图算法领域已发展成为反欺诈算法领域的中坚力量,以下就图算法中应用较为广泛的深度查询算法、中心度检测算法、社群挖掘算法进行分析介绍,为提升算法探索效率,计划采用python加载network包的方式进行算法研究。
一、深度查询算法
深度查询算法可以通过计算不同实体间最小间隔实体数从而得到不同实体间的最短路径,同时该算法也可实现在构建的图中快速进行查询,提升大数据图数据库搜索时效问题。
(一)扩展查询算法
扩展查询算法主要分为以下两种,基于横向扩展搜索,通过实体的横向邻居实体进行扩展查询;基于纵向扩展搜索,通过实体的纵向深度遍历,再横向扩展遍历。图中左侧为横向搜索算法示例,右侧为纵向搜索算法示例。
(二)路径查询算法
路径查询是图算法领域中较早开始探索的具有较高实用价值的算法,该算法的根本目标是寻找图中任意两个实体间的最快到达路线,即A实体作为起点,按照图谱中的关系路线到达B实体终点的路线称作最短路线,评价是否最短的衡量标准为途径关系权重加权最小。
该算法常用于计算汽车导航中的路线以及网络中实体间关系紧密程度,针对风控场景可以用于评估风控图谱中两个客户间风险关系紧密程度。
...........................
第三章 数据收集与网络结构抽象 ....................... 22
第一节 设计原则 .......................... 22
第二节 关联图谱图结构定义 ......................... 22
第三节 风控场景图结构设计 ........................... 24
第四章 反欺诈问题实证研究和分析 ..................... 3
第一节 实验环境介绍 ........................................... 31
第二节 实验数据介绍 ............................ 31
第三节 实验数据处理 ........................................... 32
第五章 图算法欺诈预测实证研究和分析 ................. 38
第一节 neo4j可行性实证研究和分析 ............................. 38
第二节 加入图特征的反欺诈问题实证研究和分析 ................... 47
第三节 欺诈团伙识别问题实证研究和分析 ......................... 51
第五章 图算法欺诈预测实证研究和分析
第一节 neo4j可行性实证研究和分析
一、测试背景及目的
近年来,在普惠金融的大市场环境下,信用卡申请越来越便捷,申请数量快速增长,信用卡行业面临的欺诈风险呈多样化发展趋势,提供虚假职业证明、团伙欺诈、通过代办公司伪装、推广员外部勾结等欺诈招数屡见不鲜。组织有预谋的团伙欺诈识别难度大,给信用卡行业带来了新挑战。为了更好地识别客户申请的团伙欺诈风险,计划从大量的关联关系中识别客户的异常数据,从而识别出团伙欺诈,提升本次实证效果。 故本章节将验证neo4j在当前架构下的性能,对测试过程中发现的问题并对其进行优化,以满足本次实证。
二、测试环境
本轮可行性测试使用的环境如下表5.1。
工程管理论文参考
...............................
第六章 总结与展望
第一节 研究结论
在当前复杂经济形势下,欺诈风险频繁演化,以往单一的个体风险已迅速变成有组织、有规模的团体欺诈风险,传统的反欺诈局限于个人风险识别,无法有效应对群体欺诈和关联风险,本文将以如何使用关联图谱等Fintech突破传统风控瓶颈为主线,通过系统的选题背景研究、理论基础研究、网络构建、欺诈机器学习、图特征提取、社区检测等实证分析研究,为信用卡行业关联图谱反欺诈应用探索新的思路及新的解决方案。
首先是本文研究背景,通过介绍信用卡行业发展历程,对比国际信用卡发展趋势,同时介绍当前信用卡行业在宏观、中观、微观领域收到的巨大挑战,从以上分析得出本文的研究背景和意义。同时介绍当前信用卡行业应用的Fintech技术,根据当下的痛点选取关联图谱技术作为抓手进行突破,从而应对当前信用卡行业所遇到的压力及挑战。
其次介绍理论基础研究成果,通过探索对比当前应用较多的图数据库产品从而选型本文实证部分使用的图数据库产品,同时探索筛选出适合信用卡风险管理场景的三种图算法(深度查询算法、中心度检测算法、社群挖掘算法),并进行实证论证使用。
最后通过五组实证分析,通过网络结构抽象,机器学习欺诈预测,加入图特征的机器学习欺诈预测,社区发现团伙检测,neo4j图可行性测试等实验从功能及性能两个层面进行验证,可满足风控场景性能要求且同时提升了模型召回率。
参考文献(略)