首页 个人信用评分混合模型研究

个人信用评分混合模型研究

举报
开通vip

个人信用评分混合模型研究华东师范大学硕士学位论文个人信用评分混合模型研究姓名:王帅申请学位级别:硕士专业:概率论与数理统计指导教师:汪荣明20100501摘要随着中国经济的快速发展,各种个人消费信贷业务的规模迅速扩大但是,由于目前国内商业银行对零售业务的风险管理水平较低,管理手段与技术方法相对落后,没有形成有效的自动化的基于个人信用评分模型的风险管理体系,这严重阻碍了个人消费信贷业务的发展因此,开发出一套能够有效降低个人信用风险的信用评分方法,对社会经济的发展具有十分重要的意义本文建立的个人信用评分混合模型可以有效降低商业银行的个人信用风...

个人信用评分混合模型研究
华东师范大学硕士学位论文个人信用评分混合模型研究姓名:王帅申请学位级别:硕士专业:概率论与数理统计指导教师:汪荣明20100501摘要随着中国经济的快速发展,各种个人消费信贷业务的规模迅速扩大但是,由于目前国内商业银行对零售业务的风险管理水平较低,管理手段与技术 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 相对落后,没有形成有效的自动化的基于个人信用评分模型的风险管理体系,这严重阻碍了个人消费信贷业务的发展因此,开发出一套能够有效降低个人信用风险的信用评分方法,对社会经济的发展具有十分重要的意义本文建立的个人信用评分混合模型可以有效降低商业银行的个人信用风险,更好地实现银行利润最大化的目标本文包含以下几方面的内容:第一章引言,指出问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的研究背景及意义,论述了个人信用评分系统在消费信贷风险控制过程中的重要性,概述了国内外信用评分的发展和现状,并对现有的理论研究成果加以总结第二章详细介绍了三种分类方法用以建立信用评分模型,它们是Logistic归,分类树和随机森林算法,本文选取的三种方法都很有代表性,其6PLogistics归是目前商业银行使用最广泛的参数统计方法,分类树则是使用最广泛的非参数方法,而随机森林算法是数据挖掘领域较为成功的算法第三章研究个人信用评分模型的检验方法,如何判定一个模型的有效性,我们列举了三种理论界和实用界常用的方法第四章用真实的信贷数据对第二章提出的三种分类方法进行实证分析,结果表明三种方法都可以有效的用于个人信用评分建模第五章建立个人信用评分混合模型,首先由分类树方法获取特征变量之间的交互作用项,然后引入到Logistic归模型中,从而建立完备的Logistic归模型;随机森林算法给出每个特征变量的重要性,为特征变量的选取提供依据本文的主要创新点在于:(1)将随机森林算法引入到个人信用评分建模中,并通过实证检验其预测能力;(2)建立个人信用评分混合模型,由分类树方法获取特征变量交互作用项,并引入到Logistic归模型中,建立完备的归方程关键词:信用评分,混合模型,随机森林AbstractWiththrapiddlopmntofChinsfinancialindustry,thscalofariousconsumrcrditxpandsquickly.But,bcausofthlowriskmanagmntllorthrtailtradfromthintriorcommrcialbanks,rlatilybackwardmanagmntmansandmthods,lackofanffctiprsonalcrditaluationmthod,allsrlyhindrdthdlopmntofcrditbusinssofprsonalconsum.Thrfor,itisryimportantforthdlopmntofsocialconomytodlopanaluationmthodofprsonalcrditscoring,whichissuitablforthChinscharactrandcanffctilylowrthcrditrisk.Thisrsarchonthmixdprsonalcrditscoringmodlcanrachthgoal7thatistoffctilylowrthcrditriskofcommrcialbanksandralizmaximizofthbankprofits.Inthispapr,Chaptr1gisabrifintroductionofcrditscoringandrsarchsthathabndonbfor.Chaptr2concrnsaboutthrsinglmthodsusdtobuildthprsonalcrditscoringmodl.Chaptr3analyzconcptsandmthodologistoaluatthprdictpowrofthcrditscoringmodl.Inchaptr4,thmpiricalanalysisforachmthodinChaptr2isconductdusingthralworldcrditdata.Forachmthod.thrrorratioiscalculatd.Aftrthat,thispaprconsidramixdmodlofLogisticmodlanddcisiontrinChaptr5.WcanusdcisiontrtodtctthintractionforLogisticmodl.Empiricalanalysisisalsodontoprothatthintractionsxistinthmodl.Sothmixdmodlcanrachthgoal,thatistodtctthintractionsbydcisiontr.Thmajorcontributionofthisarticlisintroducrandomforstmthodtobuildcrditscoringmodl,andthmpiricalrsultisgood.Manwhil,amixdmodlofLogisticanddcisiontrisbuilttomanagthcrditrisk.Finally,wcangtthconclusionthdcisiontrcandtctthintractionforLogisticmodl.KyWords:Crditscoring,Mixdmodl,Randomforst型硕士学位论文答辩委员会成员名单姓名职称单位备注渤辜臣才老铁程鸶、、)彳茫犬污主席诃鬟钯龙袁复箍耸直、J怿大I誓王曼畦老袅馥转、哺犬学插图目录插图目录31好客户与坏客户观测分布⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..14孓2K.S统计量⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1433一般的RoC曲线⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯154.1Logistic归模型的ROC曲线⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.16缸2分类树模型实证分析结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..1943分类树模型的ROC曲线⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.204.4随机森林模型的ROC曲线⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.2145随机森林模型的变量重要性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..215.1分类树提取重要变量⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.24表格目录表格目录31一般的混合矩阵⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1341aLogistic归模型训练样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.164一lbLogistic归模型保留样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1642a分类树模型的训练样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..1942b分类树模型的保留样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..1943a随机森林模型的训练样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..2043b随机森林模型的保留样本预测结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..20第一章引言第一章引言弟一早jI苗1.1问题的提出消费信贷业务属于银行个人业务的一种,主要是指商业银行将资金借贷给个人或家庭使用,在约定时间内收本金并按一定的利率计取利息的信贷业务消费信贷是拉动我国内需的一项重要货币政策,是在社会再生产过程中实现消费与生产均衡的助推器自1999年央行发布了《关于开展个人消费信贷的指导意见》以来,我国消费信贷市场发展迅速2007年“两会’’上,温家宝总理强调,近几年仍应坚持扩大内需方针,重点扩大消费需求,而消费信贷在拉动消费需求上的作用不容忽视近年来随着我国金融业飞速发展,各级银行机构遍布全国,人民银行、国有商业银行、股份制银行和地方性商业银行构成了我国庞大的银行体系,成为我国金融业务发展的坚实基础随着社会医疗、养老保险等 制度 关于办公室下班关闭电源制度矿山事故隐患举报和奖励制度制度下载人事管理制度doc盘点制度下载 的日益成熟,以原始积累的方式进行消费的传统观念正逐步被信贷消费理念所取代,越来越多的居民开始接受消费信贷服务,进行信贷消费消费信贷业务在我国发展至今,业务范围迅速扩大这些贷款业务主要建立在稳定合法的个人经济收入与良好的个人社会信用基础之上,主要包括个人住房消费贷款、汽车消费贷款、个人耐用消费品贷款、个人助学贷款、信用卡等业务有的金融机构还开展了个人小额信用贷款、个人综合授信额度贷款等业务目前,中国消费信贷呈现出快速增长的态势,这与中国一系列扩大内需政策紧密相关其中,国家对住房消费、汽车消费、农村消费等领域的金融支持力度加大,是拉动个人消费贷款提升的主要原因2009年上半年,个人住房按揭贷款迅猛增长,新增量达4661.76亿元,同比增幅超过150%2009年以来,国家发布的与汽车市场有关的政策共有9次在政策强劲拉动下,汽车市场增长明显业界预计,2010年汽车消费贷款将成为银行个人消费贷款新的增长点由于国家对房地产市场的密集调控,楼市消费将有所降温而在七折利率优惠的条件下,房贷业务本身利润也已被大大压缩作为仅次于个人住房按揭贷款的个人消费贷款,车贷有望迎来“加速跑随着我国信用卡发卡量的不断增加以及公众信贷消费意识的增强,信用卡期末授信总额和期末应偿信贷总额(信用卡透支余额)持续大幅增长农村消费信贷也将成金融机构新的增长点中国货币政策执行报告指出,2009年个人消费贷款全年新增1.80万亿元,同比多增1.30万亿元,其中上半年增JJn6508亿元,下半年增JJnl.15万亿元,加速增长态势明显新增个人消费贷款中75%左右为个人住房贷款,主要与住房消费有关.】.1.2信用评分当前,个人消费信贷业务的开展,对于刺激国内消费需求,拉动经济增长发挥了积极的作用,但是,在消费信贷开展过程中还存在着信息不对称等问题,导致信贷供需配比低效,严重制约着消费信贷的进一步发展如何优化信贷审批过程,使信贷风险最小化,利润最大化,解决问题的根本出路就是构建科学的个人信用评价体系1.2信用评分信用评分是指帮助贷款机构发放消费信贷的一整套决策模型及其支持技术这些技术决定谁能得到贷款,得到多少贷款,以及提高放贷款机构赢利性的操作战略贷款人必须做出两类决策首先是是否要给某个新的申请人贷款;其次是如何管理现有客户,包括是否要给他们增加信用额度帮助进行第一类决策的技术称作信用评分;帮助进行第二类决策的技术称为行为评分此外,评估信用产品相关风险时,根据借款人类型的不同,我们还可以粗略地列举几种不同的评分:申请评分:指对新申请者信用能力的评估,它通过评估申请时的社会,人口统计,金融和其它数据来量化跟信用要求有关的风险行为评分:理论与申请评分相似,不同点在于它是对现有客户进行评估因此,分析已经包含了借款人的行为行为评分模型分析消费者的行为模型用于支持动态资产组合管理过程征信评分:征信评分用来将不同程度无偿付能力的消费者划分为不同的组,分离出那些需要采取果断措施的人这些模型依据拖欠度进行区分,更好地管理拖欠客户,从第一次拖欠(30—60天)直到最后销帐欺诈评分:欺诈评分模型根据欺诈的可能性对客户进行排序随着个人消费信贷的发展,个人信用评分技术被高度重视,个人信用评分被广泛应用在商业银行的消费信贷领域据有关数据统计,个人信用评分技术的预测效果比任何主观判断都科学,使用个人信用评分技术使不良信贷率下降了50%1.3个人信用评分的定义和基本原理信用评分是在建立客户信用信息数据库系统的基础上,运用数据挖掘或统计分析方法,找出可能影响客户未来信用风险的各种因素,并分配以不同权重,进而建立起特定的数学模型,并借助计算机信息技术对客户信用信息进行量化评估的方法个人信用评分是通过对个人经济还款能力的综合评判和以往信用记录量化分析,以预测贷款申请人或现有借款人违约可能性它通常是以一个分数(Scor)|又:间来反应一2.第一章引言个人信用状况,一般界定为分数越高,提示该人的风险越低,或信用越好银行根据贷款人的信用分数,分析贷款者按时还款的可能性,据此决定是否给予授信以及授信的额度和利率从本质上讲,信用评分是在无法认清总体中分组的特征,只能认清相关分组特征时,区分各组的一个方法信用评分最早始于1940年代末至1950年代初当时,美国有些银行开始进行了一些有关信用评分方法的试验,目的是提供一种可以处理大量信贷申请的工具1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法,并成立了Fairlsaac公司,成为世界上第一家提供信用评分数学模型的公司1958年,Fairlsaac公司发布了第一套信用评分系统1.4个人信用评分的意义虽然授信者通过人工分析客户的历史信用资料,同样可以得到分析结果,但利用信用评分却更加快速、更加客观、更具有一致性个人信用评分由计算机完成计算工作,具有客观、一致、高效的特点,有助于克服人为因素的干扰防止片面性;个人信用评分可以精确估计消费信贷的风险,给授信者提供了一个可靠的技术手段,减少不良贷款,控制债务拖欠;个人信用评分可以使授信者更加精确地界定可以接受的消费信贷的风险,扩大消费信贷的发放;个人信用评分及其自动化的操作加速了整个信贷决策过程,申请人可以更加迅速地得到答复,提高了操作的效率,同时也降低了授信成本个人信用评分系统可以提高商业银行授信工作的效率因为商业银行不需要人工操作来分析是否批准信用申请人的信贷申请,也不需要人工分析违约情况在国外,信用评分及其自动化的操作加速了整个信贷决策过程,申请人可以更加迅速地得到答复,提高了操作的效率使用信用评分之后,信用卡的审批只要一两分钟,甚至几秒钟,20%80%的抵押贷款可以在两天之内批复,其中不少贷款项目在46小时内完成审批,60%的汽车贷款的审批可以在1小时内完成据美国消费银行协会最新的一份资料显示,以前不使用信用评分,小额消费信贷的审批平均需要12小时,如今使用信用分和自动处理程序,这类贷款的审批缩短至'J15分钟同时,个人信用评分可以精确估计消费信贷风险,给授信者提供了一个可靠的技术手段,减少不良贷款个人信用评分主要用途有两个:1.预测信用申请人的预期违约率商业银行等金融机构可以通过对信用申请人进行信用评分来决定是否批准一份信用申请,从潜在客户群中筛选违约率小的客户一般商业银行会对信用申请人的个人信用评分进行排序,通过对信用风险门槛设置阈值来决定是否批准信用申请2.预测现有客户的违约率对已经成为商业银行等金融机构客户的消费者,商业银一3一1.5国内外信用评分介绍行有必要对其信用情况进行跟踪和记录这主要是通过评分系统来分析借贷、偿还及其他情况,预测他们违约的可能性,同时评分系统也会根据客户各指标的变化情况来对客户的信用等级进行调整1.5国内外信用评分介绍1.5.1国外信用评分美国有多种信用评分的计算方法,其中美国3大信用局都采取FICO评分FICO评分是由FairIssac公司开发的一种信用评分统计模型,它使用的样本高达100万个模型所确立的指标包括个人信用、品德、能力资本等5C指标模型将各个指标分为若干档次并确立各档次的分值,加权各个指标,得出个人信用总分FICO的打分范围是325—900一般情况下,如果借款人的信用分超过680分,银行等金融机构认为借款人的信用度非常高,可以毫不犹豫地同意发放贷款;如果借款人的分数低于620分,银行等金融机构会要求借款人提供担保,或者直接拒绝贷款;如果借款人的信用分数介于620680之间,银行等金融机构会做进一步调查,或采取其他信用分析工具,做个案处理据统计调查显示,信用分低于600分的借款人违约率为1/8,信用分在700800分之间的违约率为1/123,信用分高于800分的借款人违约率为1/1292FICO评分系统用于预测情况变坏的可能性,它预测的是24个月内消费者逾期90天还款的可能性,评分中关键的要素有以下5个:(1)付款历史,约占评分总值的35%,主要考虑的因素有:不同种类账户的付款信息;②公共记录和收账事项;③迟付、未付(坏账)以及公共纪录、收账纪录的细节;④多少账户显示没有逾期付款(2)债务总额,约占评分总额的30%,这方面主要考虑如下因素:所有账户的债务总额;②不同类型账户的债务额;③在某些特定类型账户上是否有余额;④多少信用账户有余额;⑤信用卡及其他信用账户中的信用限额有多少被使用;⑧与最初的借款额相比较,分期付款账户还有多少没有偿还(3)信用记录的时间长短,这一方面大概占15%,一般来说,较长的信用历史有助于提高评分这方面考虑因素如下:信用账户建立多长时间;②专门信用账户建立的时间;⑧使用特定账户的时间(4)新的信用申请,约占10%,考虑因素有:有多少新账户,各是哪些类型;②开的新账户有多长时间;⑧最近提出了多少信用申请,反映在信用记录报告的查询记录中;④授信机构查询信用记录以来时间的长短;⑤在逾期付款后,最近是否有良好的信用记录(5)使用信用的种类是否是健康的组合,约占10%一4一第一章引言目前FICO信用评分的计算方法至今未向社会完全公开,Fairlssac公司目前仅公布了其评分模型的主要决策因素和大致权重对此,Fairlssac公司称,完全公开评分的细节将会导致客户以故意的作为来操纵建立在客观统计基础上的个人信用评分,从而彻底摧毁个人信用评分系统的根基1.5.2我国信用评分20世纪90年代中后期,我国信用经济开始发展起来,国内商业银行为了控制风险,开始借鉴国外的信用评分方法,结合我国实际情况,开始 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 开发自己的信用评分方法商业银行选取的指标一般包括个人身份基本情况、个人职业情况、家庭收入情况及与银行关系等商业银行一般将所选取的指标量化,赋予不同的分值进行处理,从而对个人的还款能力、资信状况作出综合评价,并给予相应的信用等级随着我国征信业的发展,国内各征信机构也陆续推出个人信用评分目前国内个人信用评分运作较为成熟的主要有上海资信的个人评分系统和深圳鹏元的个人综合信用评分2002年11月25日上海资信开通了自己的个人信用评分系统上海资信根据预测目标不同,将个人信用评分分为:风险评分、价值评分、响应评分、流失评分、催收评分、欺诈评分、破产评分等2006年3月,上海资信使用最新的征信数据和建模技术推出了新的个人信用评分一一个人信用管理评分上海资信的个人信用管理评分是用来预测消费者在未来2年内发生超过60天以上拖欠或逾期的可能性如被确认为欺诈或没有使用银行和电信产品的消费者以及当前有超过60天以上拖欠的消费者不能进行评分2005年深圳鹏元推出国内首个个人综合信用评分一一“鹏元800’’,“鹏元800”信用评分指标包括个人基本信息、银行卡信息、银行个人贷款信息、缴纳社保信息、信用报告查询信息、公共缴费信息等其中银行信用卡信息和银行个人贷款信息是影响个人信用信息的重要变量鹏元800是通过建立数学模型对个人信用信息进行统计分析,以预测未来一段时间内借款人违约的可能性,并用一个分数综合反应个人信用状况,信用分区间为320800,分数越高,借款人的违约率越低信用评分分为A—F6个等级,每80分为一等级,其中A级为“720分Nsoo分,表示可正常放贷;B级为640分以上,也可正常放贷;C级及D级为480分一640分,表示可放贷但优惠条件不如B级和A级;E级为480分以下,表示放贷有较大风险;F级为320400分,表示此类人贷款几乎100%违约在该体系中,每个分数对应一个违约率,800分对应违约率为1.73%,320分对应的违约率为100%目前,“鹏元800个人信用评分已被深圳多家银行作为放贷的风险参考个人信用评分系统不一定由个人征信机构自己开发的,征信机构可以委托专业的个人信用评分系统开发机构进行开发目前,全球比较著名的的信用评分系统开.51.6文献综述发机构有Fairlsaac、CCN、MDS等上海资信的个人信息评分系统就是利用澳大利亚.TUA公司开发的信用评分模型1.5.3国内外信用评分比较目前我国个人征信机构缺乏权威性的个人信用评分系统,上海资信、深圳鹏元虽已建立自己的个人评分系统,但由于其信用评分系统的建立是以本地居民的数据为样本,是否适用于全国还需要检验而在美国,Fairlssac公司的FICO信用评分得到美国个人征信机构的普遍使用我国信用评分的指标的选取及权重与国外评分有不同,如我国大多数商业银行的评分系统对个人的基本情况权重赋值太高,对反映债务和信用状况的指标赋值相对较低在评分指标的关注方面也与外国商业银行略有不同,如职业情况方面来看,国外银行看重的是工作的稳定情况,而国内银行更看重借款人的职位、职称及职业发展前景目前在变量的选择、权重的分配、模型的调整上,国外的专业机构有相对较为成熟的经验我国个人征信机构由于成立时间较短,经验相对较浅,未来需要通过总结、调试、跟踪、分析等措施,对个人信用评分模型的建模工作进行探索,不断优化建模工作此外,当前我国的信用评估很大部分是在银行内部评估,信息采集的范围一般仅限于银行内部信息,信息覆盖面相对较窄随着我国个人征信业的发展,个人信用评估应该由专业的独立的第三方征信机构来完成1.6文献综述可以这样说,信用评分是统计学和运筹学在金融和银行业中最成功的应用之一近20年来,多种理论和技术被应用于信用风险评估领域目前,有关信用风险评估的主流方法是基于分类的方法,即根据借款人的财务和非财务状况,将借款人进行评级,分类,这样信用评分就转化为统计中的分类问题理论界和实业界提出了多种分类模型,可以归纳为统计模型和非统计模型两大类传统的统计模型思路是根据已有分类的若干样本,从中总结出分类的规则,建立判别公式,用于新样本的分类根据判别函数的形式和样本分布的不同,主要的模型有判别分析模型,线性归模型,Logistic[团归模型,K近邻方法等随着计算机科学和人工智能的发展,数据挖掘方法成为信用风险评估领域中相对较新的方法,诸如神经网络[18】,分类树,向量机,遗传算法[13】等数据挖掘分类算法运用到个人信用评分领域,并取得了不错的效果[5][14】6一第一章引言以往的文献都是基于某一具体模型或方法来评估信用风险,将多个模型结合起来应用的文献还不多311f231,其中石庆焱f26]提出一种新的综合运用不同方法建立个人信用评分模型的方法:先建立神经网络模型,然后将神经网络模型的输出结果作为自变量之一与其他特征变量一起再建5ZLogistic归模型,最后用Logistic归模型对客户进行信用评分采用这种方法建立的模型预测精度比单纯使用Logistic归模型要高,模型的稳健性比神经网络模型要好,模型中特征变量有较好的解释意义1.7本文的主要创新点和框架1.7.1主要创新点本文的主要创新点在于:(1)将随机森林算法引入到个人信用评分建模中,并通过实证检验其预测能力;(2)建立个人信用评分混合模型,由分类树方法获取特征变量交互作用项,并引入到Lo西stic归模型中,建立完备的归方程1.7.2本文框架第一章引言,指出问题的研究背景及意义,论述了个人信用评分系统在消费信贷风险控制过程中的重要性,概述了国内外信用评分的发展和现状,并对现有的理论研究成果加以总结第二章详细介绍了三种分类方法用以建立信用评分模型,它们是Logistic归,分类树和随机森林算法,本文选取的三种方法都很有代表性,其中Logistics归是目前商业银行使用最广泛的参数统计方法,分类树则是使用最广泛的非参数方法,而随机森林算法是数据挖掘领域较为成功的算法第三章研究个人信用评分模型的检验方法,如何判定一个模型的有效性,我们列举了三种理论界和实用界常用的方法第四章用真实的信贷数据对第二章提出的三种分类方法进行实证分析,结果表明三种方法都可以有效的用于个人信用评分建模第五章建立个人信用评分混合模型,首先由分类树方法获取特征变量之间的交互作用项,然后引入至lJLogistic归模型中,从而建立完备的Logistic归模型;随机森林算法给出每个特征变量的重要性,为特征变量的选取提供依据一7一第二章三种个人信用评分单一模型本章介绍的三种方法都很有代表性,其6PLogistics归是目前商业银行使用最广泛的参数统计方法,分类树则是使用最广泛的非参数方法,而随机森林算法是数据挖掘领域较为成功的算法2.1Logistic归个人信用评分中产生分类规则最常用的方法就是logistic归一般线性归模型处理的是因变量是连续变量时与自变量的函数关系,然而,实际中许多变量是以类的形式表现的,如信用卡申请中的好客户与坏客户,因此,建立分类变量与影响变量之间的数学关系就显得非常必要这里,我们考虑的问题是因变量y是分类变量,我们考虑因变量为两类的情形,称为阻1变量,如好客户Y=1与坏客户Y=0我们可以很自然的建立普通的线性归方程来解释y,设样本为(z1,y1),(322,耽)⋯.,(z竹,鲰),甄=(Xil⋯.,z伽)T,p是变量数,n是样本量,可以得出下面的多元归方程于是Yi{o,1).建立上述模型存在以下问题:因变量是分类变量,服从两点分布,不符合线性归中正态分布的假设;对因变量的估计值很有可能超出区间[o,1】.所以,实际处理中我们需要对y进行一个变换,Logistic归就是对因变量y作Logit变换,然后进行线性建模的方法2.1.1Logisticliil归模型训练数据:(z1,Ya),(X2,y2)⋯.,(%,‰),既=(砚1⋯.,Xip)r,其中戤为特征向量,犰为分类变量当特征变量取值z时,Y=1的概率i,Ygp=P(Y=11x),Y=0的概率记为1一P=1一P(Y=1Ix)..8一n2l=邑+一UZ厥p芦+阮=yn2l=一UZ厥p触十阮II{=;.玑E第二章三种个人信用评分单一模型zn(南)可以验证用Lo舀t变换使得因变量的取值从[o,1】区间扩展到整个实数轴变换后方程变为:·n(南)=风+善P黼埘钆2⋯棚;这时归方程的右边是自变量的线性组合,左边是概率p的Logit函数,我们称这样的归模型称为logistic归(109isticrgrssion)我们可以得到p=P(r=11垆煮黯鳊其中称风为常数项或截距,称卯={胁,岛⋯.,伟)为logistic模型归系数从上式可以看出,logistic归模型是一个非线性归模型,自变量K可以是连续变量,也可以是分类变量或哑变量(dummyariabl)2.1.2Logisticl归模型的极大似然估计Logisticl明参数的估计采用极大似然估计方法(MLE).Logistic归的似然函数为三=IIP(Y=1I觑)玑(1一P(Y=1I‰))‘1一玑’,i=1,2,⋯,仃.i=l对数似然函数为:lnL=E[yiinP(Y=1I娩)+(1一玑)ln(1一P(Y=1I孔))】.i1令导数为零,有:筹=静一(⋯k))=0,删2⋯卯.这是p+1个有关p的非线性方程,常用数值迭代方法解出logistic归参数的估计一9一2.2分类树2.2分类树分类树法有时又称作递归分割法其基本思想是将信用申请人的申请表中的答项划分成不同的组,然后按照不同组中好,坏客户的多少来确定该组是好客户组还是坏客户组最初分类树法被应用于分类问题,后来很快被用于信用评分领域首先将申请人数据集合A按照某一特征划分成两个子集,使得当我们考查申请人样本时,这两个新的子集内申请人的违约风险的同质性要高于原来的数据集然后这两个子集又各自进一步划分为两个子子集,使得各子子集内申请人的违约风险的同质性比两个子集要高我们可以不断重复这一过程,直至所划分的子集成为满足要求的末端节点为止,每个末端节点然后被划分成AG或AB的一部分,整个过程可以用树状结构来表示和经典归不同,决策树不需要对总体进行分布的假定而且,决策树对于预测很容易理解,这是其优点此外,决策树很容易计算但有必要设定不使其过分生长的停止规则或者修剪方法决策树的一个缺点是每次分叉只和前一次分叉有关,而且并不考虑对以后的影响因此,每个节点都依赖于前面的节点如果一开始的划分不同,结果也可能很不一样分类树模型在本质上就是按各个自变量对因变量的关联程度依次逐个分层,直至最后分层的统计检验无统计学意义为止,然而分层统计在本质上就是交互作用背景下的简单效应统计分析,所以一些文献报道可以借助归树的分类树筛选可能的交互作用项2.3随机森林算法2.3.1随机森林算法的定义和基本性质定义2.1随机森林是一个分类器,它包含许多树状分类器{(X,ok),k=1,2⋯.),其中表示所有分类变量,{七)是独立同分布的随机向量,是第k次有放抽取的分类变量构成的集合,X表示输入向量,X的分类由这些树状分类器投票决定【2】给定一列分类器1(z),九2(z)⋯.,h(x),对任意输入向量(Vx),定义裕量函数(marginfunction)为m夕(x,y)=n七g,(饥(x)=y)一mz≠al,xQ七g,(h(y)=z)·.10.第二章三种个人信用评分单一模型其中J(.)为示性函数裕量函数表示的是将x判对时的平均分类器数与将X判错时判为其他类的最多平均分类器数的差裕量越大则分类越可信,裕量函数可以用来定义随机森林的泛化误差:P口=Px,y(mg(X,Y)<o). 定理 三点共线定理勾股定理的证明证明勾股定理共线定理面面垂直的性质定理 2.1在随机森林中,七(x)=h(x,k)随着树的数目的增加,由强大数定律,关于序列{知),PE+几乎处处收敛于P墨y[Po(h(X,)=y)一mz≠ayxPc(允(x,)=z)<01·定理2.1给出了随机森林算法的泛化误差极限值,从而解释了为什么随机森林算法不会随着树的增加而不会发生过拟合定义2.2随机森林的裕量函数定义为m7I(x,y)=Po(危(x,)=l,)一mz≠ayxPc((x,)=z)·树分类器的强度定义为s=Ex,rmr(X,y).定理2.2随机森林算法泛化误差的上界由下式给出PE+≤万(1—82)/s2.其中度量了各个分类树平均相关性的大小由定理2.2可以看出随机森林算法的泛化误差取决于每棵树的分类效果,树之间的相关性和强度相关性越大,泛化误差越大,强度越小,泛化误差越大泛化误差是相关性和强度二者之间的平衡2.3.2随机森林算法的建模过程及评价事实证明,用一个模型来决定样本数据的分类是不现实的,对分类描述得越清晰,模型就会越复杂随机森林算法是组合模型的一种,组合模型的基本原理是用现有的方法建立若干精度不高的弱分类器,然后将这些粗糙的分类器组合起来,成为一个整体分类系统Boosting,bagging,randomforst都是这一算法思想的代表随机森林算法先f主lBoostrap方法形成K个分类变量的子集{k),基于样本数据和每个子集单独构建分类树,但不进行剪枝同分类树一样,需要进行拆分变量,每个拆分节点处拆分变量确定的基本原则是对输入X按信息减少最快或信息下降最大的方向选择一1】一2.3随机森林算法LoBriman(2001)文章中指出,随机森林算法表现出以下特点:(1)随机森林算法是一个有效的预测工具,它比它产生以前所有的方法都精确(2)对于海量数据或维数诅咒问题很有效率,它从不需要删除或筛选变量,并且它还给出分类中各个变量的重要性解释(3)由强大数定律保证了模型的泛化误差趋向一个上界,提高了分类问题的准确率,也避免了过拟合现象(4)能够对有缺失值的数据进行有效的估计和处理一12.第三章个人信用评分模型的检验第三章个人信用评分模型的检验当一个信用评分模型建好后,它的有效程度如何最终是要从模型在实际应用中的效果来评价的但是在建模过程中,必须对模型的预测能力进行评估实际应用中最关注的是使用评分模型时将好客户错分为坏客户及将坏客户错分为好客户的比率以及由此产生的损失3.1hold—outsampl法在建立个人信用评分模型时,常常将样本随机地分成两部分:一部分用于建立模型,另一部分用来对模型进行检验这一做法称为holdoutsampl法.在信用评分中,将一个好客户错分为坏客户所产生的利润损失L与将一个坏客户错分为好客户所产生的违约损失D往往不同,并且在实际问题中难以确定,在实际检验时,为了方便起见,通常取D=L=1.如果我们利用训练样本建立了一个评分模型,并且还有一组与训练样本完全独立的保留样本,我们所要做的就是将保留样本中各样本的真实类别(即该客户是好客户还是坏客户1与模型的预测结果进行比较,比较的结果用一个2×2的表格,称为混合矩阵(confusionmatrix)表示出来,如表3.1所示表3.1一般的混合矩阵实际分类GB预测G9cgu9分类B6G6BbnGnB7Z3.2分离度的度量:K—S统计量当建立好一个个人信用评分系统后,我们就可以利用这一系统对总体内的各个样本进行评分一个好的评分模型应该对那些坏客户给出的分数较低,对好客户给出的分数较高,因此,好客户的得分总体上应高于坏客户当然,我们也不能排除在少数情况下会出现相反的状况这种相反状况出现得越少,说明模型越有效从统计学的观点来看,我们可以将好客户信用得分看作一个总体,将坏客户的信用得分看成另一个总体如果这两个总体之间的“距离足够大,我们就可以较好地一】3一3.2分离度的度量:K—S统计量将这两个总体区分开因此,我们可以构造一些统计量来度量两个总体之间的“距离’’在对信用评分模型进行检验时,常用的分离度统计量是KolmogoroSmirno统计量(简称K—S统计量)在图孓1中,是用来接受/拒绝好客户与坏客户两个分布的临界值,接受区域标为AG,拒绝区域被标为AB,如果两个分布没有重叠,那么这个判别规则是非常完美的如果两个分布有重叠,那么会划分出四种情形:好客户被接受,好客户被拒绝,坏客户被接受,坏客户被拒绝坏客户被接受的区域标为BⅣ,好客户被拒绝的区域标为GⅣ表3—1的混合矩阵就是计算四个区域的频数图31好客户与坏客户观测分布,鼍=l:辘设好客户分数总体和坏客户分数总体的概率分布函数分别用F(sIG)和JF(sIB)表示,对信用评分模型有效性检验实际上是检验假设:F(slG)=F(sIB)是否成立因此K—S统计量定义为:K—S=miLKlF(sIC)一F(slB)IK—S统计量也就是图3—2中虚线的长度,它是两个分布函数之间的最大距离O图32K—S统计量..14..第三章个人信用评分模型的检验在信用评分实践中,通常不做这样的假设检验,而是使用一些经验准则我们考查K.S的取值范围:f251(1)K—S小于20:模型可能无使用价值;f2)KS在2040之间:不错;(3)KS在41—50之间:好;f4)K.S在51—60之间:很好;(5)K.S在61—475之间:非常好;(6)K—S在76以上:太好,值得怀疑3.3ROC曲线所谓ROC曲线就是坏客户被拒绝的百分比相对于好客户被拒绝的百分比的曲线ROC曲线的形状如图3.3所示%ofbadsclassifid锻bad图33一般的ROC峨线它描述了当临界分数值如发生变化时评分模型的分类特性最好的评分模型的ROC曲线是(o,0)NA再N(t,1).15.第四章三种单一模型的实证分析4.1数据来源及预处理本文使用信用评分领域非常著名的数据,由德国教授HansHohnann收集的GrmanCrditDatast来进行实证分析,该数据集的详细信息详见附录A一共有20个变量,1000个样本点,其中好客户为700个,坏客户为300个为了'Logistic归的需要,我们还需要对数据集进行预处理,也就是建立哑变量的过程,哑变量的个数为原变量类别数减1lip可本文统一用R软件编写程序进行实证分析具体程序见附录B4.2Logistic[')3模型的实证分析本文随机选取800样本作为训练集,余下200样本作为测试集,以0.5为概率界限,对训练样本和保留样本中的客户进行预测分类,其结果如表41a,41b所示表41aLogisticl归模型illl练样本预测结果表41bLogistic模型保留样本预测结果实际分类GB预测G50459563分类B107130237611189800萎箸耋童苫实际分类GB预测G12036156分类B17274413763200图41Logistic归模型的ROC曲线.16.第四章三种单一模型的实证分析可以计算出KS的值为47.59588,训练样本误差率为0.2075,保留样本误差率为0.265,图垂1均说明模型预测能力不错以下所示为Logistic归方程系数估计,可以看出,Vll,V12,V13,V2,V31,V32,V33,V5,V61,V62,V63,V74,V8,V141,V16等变量对模型影响显著Call:glm(formula=V21.,family=”binomial,data=wsl.train)DiancRsiduals:MiniQMdian3QMax2.69040.67160.35340.69702.2238Cofficints:EstimatStd.ErrorZaluPr(>IzI)(Intrcpt)9.480+001.614+005.87542309车奉幸Vil—1.701+002.738016.2125.23i0木车木V121.432+002.693015.3191.0507)Ic木木V131.117+004.258012.6230.008709木木V2—3.237021.063023.0460.002318木木V311.112+004.869012.2840.022371木V321.7ll+004.769013.5880.000334奉木奉V331.013+002.883013.5130.O00442木掌木V347.428013.834011.9370.052688.V411.755+009.448011.8580.063229.V424.026029.737010.0410.967015V439.589019.524011.0070.313991V44—8.050019.540010.8440.398807V45—9.629011.25l+000.7700.441502V461.356+001.094+001.2400.214944V471.899+001.020+001.8620.062625.V481.354+014.759+020.0280.977309V498.171019.736010.8390.401335V5—1.379044.954052.7840.005364木宰V611.392+003.270014.2582.0605木率奉V62—1.081+004.127012.6200.008785宰术V631.147+005.095012.2510.024383木V641.312016.057010.2170.828520、仃1—1.66001455l010.3650.715214—17.4.2Logistic归模型的实证分析、r72、阿3、Ⅳ4V8V91V92V93VIOlV102V11.1V121V122V123V13.1V141V142V151V152V16V171V172V173V18V19V201.260014.750026.784013.536017.325014.82l014.380028.109018.978019.494026.725014.595015.142016.400036.558012.174017.761013.052015.152015.641017.689032.239045.607023.335011.127+003.346012.831013.409019.922025.179013.689013.656014.620016.251019.920024.893014.778014.624011.036022.680014.330015.547015.228012.167017.204013.987013.261012.880—012.274016.49601Signif.cods:0‘木木木’(DisprsionparamtrforNulldianc:972.25Rsidualdianc:705.29AIC:803.290.3770.1681.9903.564—1.414—1.3070.1201.7551.4360.9571.3740.9621.1120.6182.4470.502—1.3990.5842.3780.7830.0190.0010.1951.4671.7350.7064570.8667750.046629木0.000366宰术掌0.1572190.1912400.9046570.079254.0.1509170.3385440.1693450.3362630.2661570.536556O.014413木O.6156320.1617540.559325O.017415木0.433573O.9846140.9994520.8456480.1425010.082677.0.001‘宰宰’0.01‘宰’0.05‘.’0.1‘’1binomialfamilytakntob1)011799dgrsoffrdomon751dgrsoffrdomNumbrofFishrScoringitrations:14—18.第四章三种单一模型的实证分析4.3分类树模型的实证分析同样地,在该800样本训练集上建立分类树模型,分类结果如图4—2所示图42分类树模型实证分析结果分类混合矩阵如表42a,42b所示表42a分类树模型的训练样本预测结果表4.2b分类树模型的保留样本预测结果实际分类GB预测G526105631分类B39130169565235800实际分类GB预测G1123915l分类B23264913555200可以计算出K.S的值为35.49858,训练样本误差率为0.18,保留样本误差率为0.31,模型预测能力较好图4.3为分类树模型的RoC曲线:一19—4.4随机森林算法模型的实证分析卺黑量占图4.3分类树模型的ROC曲线4.4随机森林算法模型的实证分析本文选取500颗树在训练集上建立随机森林模型,在测试集上进行预测分类混合矩阵如表4—3a,4.3b所示表4—3a随机森林模型的训练样本预测结果表4.3b随机森林模型的保留样本预测结果实际分类GB预测G5560556分类B0244244556244800实际分类GB预测G13733170分类B7233014456200可以计算出K—S的值为51.4881,训练样本误差率为0,保留样本误差率为0.2从结果看,随机森林的预测误差是很小的[]44为ROC曲线,图4—5为变量重要性可以看出,V1,V2,V3,V5等变量对模型的重要性较大4.5本章小结信用评分的目的就是利用现有样本数据建立模型,利用该模型对未来申请人的信用行为进行预测,从而区分出好客户和坏客户这里,预测的精度是非常重要的,因为许多情况下即使预测的准确性只提高一点点,也会使信贷机构的损失减少很多正一20一.一罟善菩N.oo0第四章三种单一模型的实证分析罟V1V2V3V12V5V6V10V13V14V7V4V11V17V16V15V9V19V18V20V8o.oO.2o.4o.60.81.oFalspositirat图4.4随机森林模型的ROC曲线aV5V1V13V24V3V7V6V12V9V11V8V1714V15V16V10V19V18V200.00.2o.4o.6o.81.ooManDcrasAccuracy10203040ManDcrasGinj图4.5随机森林模型的变量重要性.21一$墨鐾i8QoⅢl4.5本章小结因为如此,大量的分类方法被应用到信用评分领域到底哪种方法最好从现有的研究结果看[5】,并不能得到一个一致的结论,有些结论甚至相互矛盾因此,到底选择哪一种方法建立评分模型到目前为止仍然是一件困难的事情实证分析表明,本章的三种方法都可以用于信用评分建模,其中Logistics归是目前商业银行使用最广泛的参数统计方法,分类树则是使用最广泛的非参数方法,而随机森林算法是数据挖掘领域较为成功的算法从分析结果也可以看出,Logistics归的优点在于模型的稳健性,缺点在于预测精度不如其他数据挖掘方法;分类树的优点在于对训练样本分类效果很好,但模型稳健性较差;随机森林算法的训练效果和预测精度都很好,因此本文认为随机森林算法建立信用评分模型是较优的方法.22.第五章个人信用评分混合模型的建立第五章个人信用评分混合模型的建立5.1建模依据从上一章节单一模型的实证分析来看,各种分类方法建立信用评分模型各有其优点和缺点,能否将不同的方法结合起来建立一个混合模型,以达到精确预测的目的本章就对信用评分混合模型进行探讨,主要考虑角度是完善Logistic归模型在应用Logistic归方程建立个人信用评分模型时,我们没有考虑各自变量之间对因变量可能存在的交互作用,而实际中交互作用往往不容小视在自变量较少的情况下,可通过检验交互作用项的归系数推断这些自变量是否对因变量构成交互作用但在个人信用评分建模中,自变量个数很多,归模型考虑交互作用就相当复杂,所以在实践中通过Logistic归模型分析交互作用,难以实现此外,在作归分析时,常常需要对连续型自变量进行分割成若干个分段的自变量,这就存在如何选择最合适的分割点,对归模型本身而言,很难直接探索到最合适的分割点,往往根据经验和人为地确定某几个点作为分割点,其归效果很可能因分割点选择不理想而受到影响分类树模型在本质上就是按各个自变量对因变量的关联程度依次逐个分层,直至最后分层的统计检验无统计学意义为止,然而分层统计在本质上就是交互作用背景下的简单效应统计分析,所以一些文献报道可以借助分类树筛选可能的交互作用项[32】虽然树模型可以筛选交互作用,但它无法分析自变量的线性叠加效应,并且往往把一些自变量之间的线性叠加效应的关系错误地用分层关系表达基于上面的考虑,将分类树与Logistic[归模型相结合,用分类树模型实现交互作用的筛选,然后根据筛选的结果构造相应的Logistic归方程,并检验交互项的归系数,从而完善Logistic模型512实证分析首先,用分类树模型筛选变量,根据树的节点特征变量建5ZLogistic归方程,然后将分类树得出的二阶交互作用项加入到Logistic归方程中,检验交互作用项是否明显,从而建立完备的归方程按照上一章的方法,可以得出分类树的分类结果如图5一l所示:然后,将这些节点变量放zkLogistic[目归方程中,建立Logistic[归模型,系数估计如下:一23—5.2实证分析图5.1分类树提取重要变量Call:glm(formula=V21.,family=”binomial”,data=wsl.train)DiancRsiduals:MinlqMdian3qMax2.69800.89050.48310.79391.8664Cofficints:EstimatStd.ErrorZaluPr(>IZI)(Intrcpt)3.61630.59566.0721.2609牛奉木T1.11.24960.22425.5742.4808木半唪T1.20.38530.21721.7740.076102.T210.50820.21582.3550.018525木T220.74600.26532.8120.004922宰,IcT230.91530.40202.2770.022791宰T310.70590.26072.7070.006782幸率T320.38140.2602—1.4660.142702T4O.56150.18263.0750.002103木木T511.15920.34593.3510.000805幸,lc木T521.57030.62422.5160.011879木T610.65870.21603.0490.002294木木一24.第五章个人信用评分混合模型的建立T6279T13T150.33610.28300.15900.47690.32760.18700.19230.23501.0261.5140.8272.0290.3049090.1301360.4082530.042465木Signif.cods:0‘术宰木’0.001‘木宰’O.01‘率’0.05‘.’0.1‘’1(Disprsionparamtrforbinomialfamilytakntob1)Nulldianc:982.41on799dgrsoffrdomRsidualdianc:803.19on784dgrsoffrdomAIC:835.19NumbrofFishrScoringitrations:5Logistic归结果表明,绝大多数分类树节点变量的系数是显著的,故可以用这些变量来建立预测模型接着,根据分类树结果,提取交互作用项(此处,为了简化过程,仅提取二阶交互作用项,三阶及三阶以上未考虑),放入到归方程中,检验交互作用项:Call:glm(formula=V21.+T1.1:T21+T21:T51+T23:T51+T23:T52+T61:T31+T21:T61+T4:T614T4:T154T21:T4,family=”binomial”,data=wsl.train)DiancRsiduals:MinlqMdian3qMax2.60900.77110.47130.76672.1184Cofficints:EstimatStd.ErrorzaluPr(>IZI)(Intrcpt)一4.03261.2294—3.2800.00104木宰T1.11.78530.32975.4156.1408丰木事T1.20.39680.22391.7720.07640.T2i0.60861.14450.5320.59490T220.73000.28262.5830.00980}木T232.95271.13802.5950.00947奉木T310.54090.30391.7800.07515.T320.39420.2699i.4600.14417T41.57340.54102.9080.00363木木T510.71401.03310.6910.48948—25.5.3本章,凶kh结T52T61T62T9Ti3Ti5T1.1:T21T21:T51T23:T51T23:T52T31:T61T21:T61T4:T61T4:T15T21:T42.16991.02400.35120.30090.20310.63260.88160.93912.57332.59850.49470.43730.47890.35310.83200.78730.45330.33660.19150.19830.39150.40101.11031.22381.54400.41160.38660.39820.48080.39172.7562.2591.0431.5711.0241.6162.1990.8462.103—1.6831.2021.1311.2030.7352.1240.00585木奉0.02387奉0.296780.116200.305750.106120.02790木0.397630.03549宰0.09238.0.229410.258020.22906O.462640.03368宰Signif.cods:0‘木木幸’0.001‘木木’0.01‘奉’0.05‘.’0.1‘’1(Disprsionparamtrforbinomialfamilytakntob1)Nulldianc:982.41on799dgrsoffrdomRsidualdianc:781.75on775dgrsoffrdomAIC:831.75NumbrofFishrScoringitrations:5归结果表明,T1.1与T21,T23与T51,T21与T4之间的交互作用项是显著的,检验统计量也均表明混合模型是有效的,从而达到了有效预测并捕获交互作用项的目的5.3本章总结本章是对建立信用评分混合模型的一个尝试,基于Logistic归的稳健性和分类树的训练效果,采用参数方法与非参数方法结合的方式建立混合模型,即用分类树提取特征变量交互作用项,引入到归方程中,从而完善Logistic归,起到了变量选择,考虑交互作用项的作用实证分析结果表明,分类树可以提取重要变量,大大减少了归模型中特征变量的个数,根据树的结构,提取出交互作用项,并用Logistic[]归验证了交互作用项的显著性,建立了完善的归模型,达到更精确预测的目的一26—第五章个人信用评分混合模型的建立此外,随机森林算法可以提取变量的重要性度量,也可引入到归模型中,作为变量选择的依据本文仅利用三种有代表性的模型对信贷产品申请人的违约率进行预测并比较,接着给出基于归方程和分类树的混合模型本文并没有与其他分类模型进行比较,这也是未来可以开展的一项工作此外,由于国内银行信贷数据的保密性,无法获得,故本文使用国外的信用卡数据进行实证分析,混合模型是否适合我国的信贷产品信用评分,还需要进一步的验证一27.附录AAttributdscriptionGrmanCrditData说明Attribut1:(qualitati)StatusofxistingchckingaccountA11:⋯<0DMA12:0<=⋯<200DMA13:⋯>=200DM/salaryassignmntsforatlast1yarA14:nochckingaccountAttribut2:(numrical)DurationinmonthAttribut3:(qualitati)CrdithistoryA30:nocrditstakn/allcrditspaidbackdulyA31:allcrditsatthisbankpaidbackdulyA32:xistingcrditspaidbackdulytillnowA33:dlayinpayingoffinthpastA34:criticalaccount/othrcrditsxisting(notatthisbank)Attribut4:(qualitati)PurposA40:ca/(nw)A41:Ca/(usd)A42:furnitur/quipmntA43:radio/tlisionA44:domsticappliancsA45:rpairsA46:ducationA47:(acation—dosnotxist)A48:rtraining一28—附录AGrmanCrditData说明A49:businssA410:othrsAttribut5:(numrical)CrditamountAttribut6:(qualitati)Saingsaccount/bondsA61:A62:A63:A64:A65:⋯<100DM100<=⋯<500DM500<=⋯<1000DM..>=1000DMunknown/nosaingsaccountAttribut7:(qualitati)PrsntmploymntsincA71:unmploydA72:⋯<1yarA73:1<=⋯<4yarsA74:4<=⋯<7yarsA75:..>27yarsAttribut8:(numrical)InstallmntratinprcntagofdisposablincomAttribut9:(qualitati)PrsonalstatusandsxA91:mal:diorcd/sparatdA92:fmal:diorcd/sparatd/marridA93:malA94:mal:singl:marrid/widowdA95:fmal:singlAttribut10:(qualitati)Othrdbtors/guarantors.29—A101:nonA102:CO—applicantA103:guarantorAttribut11:(numrical)PrsntrsidncsincAttribut12:(qualitati)ProprtyA121:ralstatA122:ifnotA121:buildingsocitysaingsagrmnt/lifinsurancA123:ifnotA121/A122:carorothr,notinattribut6A124:unknown/noproprtyAttribut13:(numrical)AginyarsAttribut14:(qualitati)OthrinstallmntplansA141:bankA142:storsA143:nonAttribut15:(qualitati)HousingA151:rntA152:ownA153:forfrAttribut16:(numrical)NumbrofxistingcrditsatthisbankAttribut17:(qualitati)JobA171:unmployd/unskilld—non—rsidnt30.附录AGrmanCrditData说明A172:unskilld—rsidntA173:skilldmploy/officialA174:managmnt/slf—mployd/highlyqualifidmploy/officrAttribut18:(numrical)NumbrofpoplbingliabltoproidmaintnancforAttribut19:(qualitati)TlphonA191:nonA192:ys,rgistrdundrthcustomrsnamAttribut20:(qualitati)forignworkrA201:ysA202:no.31—附录B本文中实证结果的R程序st.sd(8)随机森林建模程序wsf=rad.CSV(”E:/CrditData.CSV”)samp=sampl(1:i000,800)tsamp=stdiff(1:1000,samp)wsf.trainwsf[stup,]wsf.tstwsf[tsamp,]library(randomForst)a2randomForst(V21.,data=wsf.train,importaac=TRUE,+proximity2豫UE,ntr=500,kp.forst=TRUE)arlmpPlot(a)wsf.tstp4=prdict(a,wsf.tst,typ=’prob’)[,2]prd4=prdiction(wsf.tstp4,wsf.tst$V21)prf4=prformanc(prd4,”tpr”,”fpr”)plot(prf4)max(attr(prf4,’Y.alus’)[[1]卜attr(prf4,’x.alus’)[[1]])yhat2=ifls(prdict(a,wsf.tst,typ=’prob’)[,1]>O.5,“bad”,”good”)tabl(yhat2,wsf.tst[,21])TE72sum(yhat21wsf.tst[,21])/lngth(wsf.tst[,21])TE7Y.pr2prdict(a,wsf.train,typ=’prob’)yhat=ifls(y.pr[,1]>O.5,‘‘bad”,”good”)tabl(yhat,wsf.train[,21])TE8=sum(yhatIwsf.train[,21])/lngth(wsf.train[,21])TE8分类树建模程序wsf=rad.cs(”E:/CrditData.CSV”)一32.samp=sampl(1:i000,800)tsamp:stdiff(I:i000,samp)wsf.train=wsf[samp,]wsf.tst=wsf[tsamp,]library(rpart)library(ROCK)fitl:rpart(V21.,data=wsf.train)y.pr=prdict(fiti,wsf.train)yhat=ifls(y.pr[,1]>O.5,”bad”,”good”)tabl(yhat,wsf.train[,21])plot(fitt)txt(fitl,us.n=T,cx=O.5)TE5:8um(yhatwsf.train[,21.])/lngth(wsf.train[,21】)TE5wsf.tst$t=prdict(fi乞1,typ=’class’,wsf.tst)wsf.tstStscorl=prdict(fitl,typ=’prob’,wsf.tst)prd5=prdiction(wsf.tstStscorl[,2],wsf.tstSV21)prf5=prformanc(prd5,”tpr”,”fpr”)plot(prfS)max(attr(prf5,’y.alus’)呲】卜attr(prf5,’x.alus’)[[1]])hat2=ifls(wsf.tstStscorl[,13>0.5,”bad”,“good”)tabl(ybat2,wsf.tst【,21])TE6:sum(yrhat21=wsf.tst[,21])/lngth(wsf.tst[,21])1下6Logistic归建模程序wsl=rad.cs(E:/Crdit.CSV“)samp:sampl(1:1000,800)tsamp=stdiff(1:i000,samp)wsl.train=wsl[samp,]wsl.tst:wsl[tsamp,]wsl.glm=glm(V21.data=wsl.train,family一’binomial”)library(RGCR)wsl.tst$scor=prdict(wsl.glm,typ:’rspons’,wsl·tst).33—prd=prdiction(wsl.tst$scor,wsl.tst$V21)prf=prformanc(prd,”tpr”,”fpr”)plot(prf)max(attr(prf,’Y.alus’)[[1]]·‘attr(prf,’X.alus’)[[1]])py=wsl.glm$fittdV21prd=wsl.train$V21V21prd[py>O.5]=1V21prd[py<=O.5]=0TE=sum(V21prd=wsl.trainSV21)/lngth(wsl.trainSV21)TEtabl(V21prd,wsl.trainSV21)V21prd2=wsl.tstSV21V21prd2[wsl.tst$scor>O.5]=1V21prd2[wsl.tst$scor<=0.5]=0TE2=sum(V21prd21=wsl.tst$V21)/1ngth(wsl.tstSV21)TE2tabl(V21prd2,wsl.tstSV21)summary(wsl.glm)Logistic模型检验交互作用项wsl.glm3=glm(V21T1.I+T21+T51+T61+T31+T4+T15+TI.1:T21+T21:T51+T61:T31+T4:T15,+data=wsl.train,family=”binomial”)summary(wsl.glm3).34.参考文献参考文献fljlBriman,L.,Fridman,J.H.,Olshn,R.A.,Ston,CJClassificationandRgrssionTrs,Blmont:Wadsworth,1984.[2】2Briman,L.,Randomforsts,MachinLarning,45:532,2001.[3jDSrigny,A.,Rnault,O.,MasuringandManagingCrditRisk,NwYork:McGrawHill,2004.Hand,D.J.,Goodpracticinrtailcrditscorcardassssmnt,JournalofthOprationalRsarchSocity56(9),Sptmbr2005.[5】Hand,D⋯JHnly,W.E.,Statisticalclassificationmthodsinconsumrcrditscoring:Ariw,JournalofthRoyalStatisticalSocity,SrisA160,523541,1997.【6】Hasti,T.,Tibshirani,R.,Fridman,J.H.,ThElmntsofStatisticalLarning,NwYork:SpringrVrlag,2003.[7】Hoadly,B.,Olir,R.M.,Businssmasursofscorcardbnfit,IMAJournalofMathmaticsApplidinBusinssandIndustry9,5564,1998.【8】L,TSChiu,C.C.,Lu,C⋯JChn,I.F.,Crditscoringusingthhybridnuraldiscrimoinanttchniqu,ExprtSystmswithApplications23,245—254,2002.[9】Lwis,E.,IntroductiontoCrditScoring,SanRafal:ThAthnaPrss,1992.[10]Malhotra,R.,Malhotra,D.K.,Ealuatingconsumrloansusingnuralntworks,Omga31,8396,2003.【11]Marshall,K.T.,Olir,R.M.,DcisionMakingandForcasting,NwYork:McGrawHill,1993.【12】Olir,R.M.,Wlls,E.,Efficintfrontircut—offpolicisincrditportfolios,JournalofOprationalRsarchSocity52,1025—1033,2001.【13]Ong,CSHuang,J.J.,Tzng,G.H.,Buildingcrditscoringsystmsusinggnticprogramming,ExprtSystmswithApplications29,41—47,2005.[14]Thomas,L.C.,Asuryofcrditandbhaioralscoring:Forcastingfinancialrisksoflndingtocustomrs,IntrnationalJournalofForcasting,16:149172,2000.[15]Thomas,L.c.,Edlman,D.B.andCrook,J.N.,CrditScoringandItsApplication,SIAMmonographsOilmathmaticalmodlingandcomputation,Philadlphia,2002..35—参考文献[16】Vanabls,W.N,Smith,D.M.,2008.http:Ilcran.r—projct.orgldoclmanuals/R—intro.pdf[17]Wisbrg,S.,Copula:ApplidLinarRgrssion,NwYork:Wily,2005.[18】Wst,D.,Nuralntworkcrditscoringmodls,ComputrsandOprationalRsarch27,1131—1152,2000.[19】Yobas,M.B.,Crook,J.N.,Ross,P.,Crditscoringusingnuralandolutionarytchniqus,IMAJournalofMathmaticsApplidinBusinssandIndustry11,111—125,2000.[20]陈希孺,高等数理统计学,合肥:中国科学技术大学出版社,1999.【21]陈希孺,王松桂,近代归分析,合肥:安徽教育出版社,1987.[22】林功实,林健武,信用卡,北京:清华大学出版社,2006.5.[23】吕杨,个人信用评价体系构建研究一其于AHP和Logistic混合模型,南京理工大学大雨学位论文,2009.[24】茆诗松,王静龙,高等数理统计,北京:高等教育出版社,1999.[25】石庆焱,秦宛顺,个人信用评分模型及其应用,北京:中国方正出版社,2005.f26】石庆焱,一个基于神经网络一Logistic归的混合两阶段个人信用评分模型研究,统计研究,V01.5,PP.45.49,2005.[27】王星,非参数统计,北京:清华大学出版社,2009.3.【28】王晓蕾,石庆焱,吴晓惠,信用评分及其应用,北京:中国金融出版社,2005.12.【29】肖艳,杨国强,商业银行消费信贷业务的风险分析及对策探讨,金融纵横,Vbl.1,2010.f30】薛毅,陈立萍,统计建模与R软件,北京:清华大学出版社,2007.【31】叶凯,个人信用混合两阶段评估方法研究,哈尔滨工业大学硕士学位论文,2006.【32】赵自强,郑明,应用分类树模型筛选Logistic归中的交互作用,中国卫生统计,Vr01.24,No.2,2007.4.一36致谢致谢时间过得真快,还没来得及细细品味,研究生时代就要落下帷幕这也预示着我就要走向工作岗位,开始人生新的征程硕士论文的完成意味着我将告别一起陪伴我走过三年的老师同学们此时,我要对所有帮助过我的老师,同学和朋友们表示真挚的感激首先,感谢我的导师汪荣明教授,您在讨论班上的严谨态度和敏锐的学术前沿观察力使我终生受益感谢师母陈老师,您在学习和工作各方面的深切关心和支持让我深受感激和鼓舞感谢徐遥琴老师,三年来,没有您的辛勤劳动,我们可能不会如此顺利地完成研究生阶段的各项学习任务,我们今天的成绩和您的关心是分不开的感谢07级统计精算班的所有同学,感谢你们三年对我的关心和帮助感谢华东师范大学,因为在这里,我收获了爱情感谢亲爱的你,我们一起走过研究生阶段,一起面对各种挑战,一起迎接美好的明天我今天所有的成绩都有一半是你的功劳最后,非常感谢我的妈妈,是您养育了我,愿您身体健康37—个人信用评分混合模型研究作者:王帅学位授予单位:华东师范大学本文链接:http:dgwanfangdatacomcnThsisY1743276aspx 封面 文摘 英文文摘 王帅硕士学位论文答辩委员会成员名单 插图目录 表格目录 第一章引言 11问题的提出 12信用评分 13个人信用评分的定义和基本原理 14个人信用评分的意义 15国内外信用评分介绍 151国外信用评分 152我国信用评分 153国内外信用评分比较 16文献综述 17本文的主要创新点和框架 171主要创新点 172本文框架 第二章三种个人信用评分单一模型 21Logistic归 211Logistic归模型 212Logistic归模型的极大似然估计 22分类树 23随机森林算法 231随机森林算法的定义和基本性质 232随机森林算法的建模过程及评价 第三章个人信用评分模型的检验 31holdoutsampl法 32分离度的度量:KS统计量 33ROC曲线 第四章三种单一模型的实证分析 41数据来源及预处理 42Logistic归模型的实证分析 43分类树模型的实证分析 44随机森林算法模型的实证分析 45本章小结 第五章个人信用评分混合模型的建立 51建模依据 52实证分析 53本章总结 附录AGrmanCrditData说明 附录B本文中实证结果的R程序 参考文献 致谢
本文档为【个人信用评分混合模型研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_052481
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:44
分类:
上传时间:2017-03-29
浏览量:36