基于主成分分析和熵值法的电信客户信用评级体系研究
基于主成分分析和熵值法的电信客户信用
评级体系研究
基于主成分分析和熵值法的电信客户信用评级体系研究
覃国森
(中国移动通信集团广东公司东莞分公司,广东东莞525000)
摘要:本文结合主成分分析,逻辑函数和熵值法,构造出一个信用
评分
售楼处物业服务评分营养不良炎症评分法中国大学排行榜100强国家临床重点专科供应商现场质量稽核
器.并在此基础上提出
了一种新的电信客户
信用评级体系.本文通过对抽样选取的全球通客户的通讯行为数据进行统计分析,遴选出六
个重要维度及其代表性指标,
然后利用主成分分析来缩减每个维度的指标,并用逻辑函数计算出每个维度的分数,最后用
熵值法计算出每个维度分数
的权重并求和得出最终的信用总分,从而实现了对电信客户的评级.通过
案例
全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例
实践,发现这一
模型对通讯客户具有较好
的识别信用风险和预测信用风险的能力.
关键词:主成分分析;熵;信用评级;逻辑函数;PACE模型
一
,应用背景和研究价值
随着电信业的不断发展,信用管理和风险控制能力欠缺
所带来的经营风险13益加大,但是目前电信行业还没有像银
行业一样,做到对客户的信用价值进行分析管理并用于业务
风险控制和管理,用户发生恶意欠费,钻漏洞恶意办理业务
等情况屡屡发生,给运营商带来很大的损失.
通信行业信用问题的根源来自于后付费的收费模式,该
收费模式要求企业拥有健全的客户信用控制体系,而目前电
信运营商普遍缺乏.赊账和客户信用控制体系不健全使移动
电话欠费成为可能,而移动电话用户流动性大的特点进一步
加重了问题的严重性.运营商各地公司均在客户信用评级和
信用度管理方面发力,如上海移动和上海联通的用户缴费信
息都进入上海市个人信用联合征信体系,恶意欠费会被视为
不良信用记录在案.但电信行业的信用管理总体情况依然不
够理想,上下一体化的完整的体系建设到目前为止仍然没有
建立起来.
二,电信客户信用评级体系
评估一个客户的信用目前缺少一种客观标准,对于信用
的定义,各行业也是千差万别.为此,要构建一个科学的信
用评估方法,首先要保证概念的完整性.根据各行业对信用
的认识,并结合电信行业的业务特点,可以给出一个定义:
客户可能不履行承诺,合约而带来收入风险的程度.本文在
东莞公司信用体系研究案例中,基于PACE(表现一态度一
能力一环境)的信用评估模型,建立了一个符合以上综合评
估定义的电信客户信用评级体系.如图l所示,体系从概念
模型出发,寻找关系客户信用的代表性变量,进而对历史信
用数据建立数据挖掘模型,量化收入风险的可能性,利用本
文提出的评分器对这个定量的信用进行评分,从若干维度综
合得出客户的信用评分,然后进一步定性分级,并从此得出
客户红,黑名单.最终这些定量分值和定性分级将应用于业
务流程的各关键环节.借助业务应用,在风险防范和满意度
提升方面进行反馈优化,不断提升信用模型,形成闭环应用
流程
W删
卜\匦=??
遴选变量-=信用总分
鹳螂一翩
业务应用PAcE模型评分器
图1电信客户信用评级体系
三,PACE模型
PACE模型根据业务经验,选出四个对客户信用影响比较显
着的概念(图2)来综合评估客户信用,并认为所有因素皆可归
入其中某个特定概念当中:
1.P:Performance.”表现”概念指的是客户曾经表现过的,
并留有记录的,被标志为”坏”信用的行为表现.当一个客户曾
经有过不好的信用记录,可以初步判断其未来存在同样坏行用行
为的可能行较大.表现概念涵盖诸如欠费停机,曾入黑名单,可
疑行为等因素.
2.A:Attitude.”态度”概念反映了客户自我的心理态度,积
极的态度将会有较低信用风险.本维度包括客户对运营商业务和
服务的依赖性,以及客户的期望与需求被满足的差距而产生的不
满心理,将分别用忠诚度和满意度来表示.
3.C:Capacity.”能力”概念反映了客户消费能力和
意愿,高能力的客户通常信用风险较低.本维度将通过客户
自身的身份背景,例如年龄,职业,关键人物等因素,以及
客户实际的历史消费和消费变动趋势来衡量其消费能力和
意愿.
4.E:Environment.”环境”概念是指在客户个体之外的因
素,而区别于前三个维度.外部环境对信用的影响是巨大的,可
能导致总体或群体性的客户信用变化.本维度主要从宏观经济,
电信策略,社会信用和重大事件出发,考虑这些因素对个体客户
的影响
e莩麟一?2”/?中国经贸-..
图2PAcE模型
四,评分器
1.国内外研究状况以及各种算法的适用性和优劣性分析对比
信用风险评估是分类决策应用中的一个经典问题.在进行分
类时,需要对大量数据进行统计学习,发现分类模式,并最终决
定分析对象的风险等级.经过大量学者最近几年的研究,目前已
经存存很多优秀的算法和模型可以借鉴,但是由于应用的问题领
域不同,各种算法的优缺点对比也比较明显.按照是否具有训练
集,这些算法可以分为被动学习算法和主动学习两大类.目前主
流的被动学习算法有决策树,逻辑回归,支持向量机,神经网络,
贝叶斯网络等虽然这些算法应用比较成熟,并且取得了很良好的
效果,但它们最大的缺点是过分依赖于训练样本,而且只能在样
本数达到一定数量和质量程度时才能表现出稳定的性能,准确率
不能保证.我国电信行业开展信用评估工作的时间比较短,想要
获得大量具有信用风险等级的数据是很困难的.在我们研究的案
例中,基本不存任带有标注的历史数据,采用被动学习显得十分
困难.住这个应用背景下,主动学习算法就表现出了很大的优势.
基f委员会投票选择算法虽然简单容易实现,但是其依然需要一
定量的优质数据,否则分类器的精度会大打折扣;将”基因”对
应与一种移动通信用户行为属性的权值,”染色体”对应于被选
取的用户行为属性的权值的集合和”种群”对应与所有用r,行为
属性的权值的遗传算法已经成功移动通讯用户信用度的预测评
估,但是这种算法需要建立任良好设计的交义变异算子和上,拓
展性不强.结合应用背景,借鉴各种方法的优点,以下提出结合
一
种基于主成分分析,逻辑函数和熵值法的评分器.
2.评分器结构
为了尽可能消减观选取相关变量带来的负面影响,本文首先
对遴选出的变量进行维度划分,对每个维度应用主成分分析方法提
取反映重要信息的指标,任此基础上,不同于主成分得分的简单线
性相加,引入逻辑函数来进行维度评分,最后取代专家设置,利用
熵的方法来计算维度权值,以保证最后总分的客观性(如图3所示).
图3评分器构造图
?
28?IC中hesSup幽
3.主成分分析
(1)基本原理
主成分分析是数学上对数据降维的一种方法,其基本思想是
设法将原来众多的具有一定相关性的指标(比如p个指标),用少
数几个潜在的相互独立的主成分指标(因子)F.的线性组合来表
示,构成的线性组合可以反映原多个实测指标的主要信息.
(2)主成分分析模型的构建
设有n个样品,每个样品观测P项指标(变量):
,z,...,,其中=(“..,)?,i=1,2.,P.用
数据矩阵X的P个列向量(即P个指标向量)1,X2,…,作
线性组合,得出指标向量方程:
f=q++…+,
l=q2XI+a22+-..+2
I??????
\Fpcl,pX+dpz2+...+dppXp
并使其满足
(1)++…+口;f=1,i=1,…,P
(2)Cov(Ft,)=„?=0
(3)Var(F~)=ma—x(?cX)C?=J?.?
计算得出的综合指标向量,,…,就是主成分,这p
个主成分从原始指标所提供的信息总量中所提来看,客户信用度与各相关变量之间并不
是单纯的线性关系,因此为了消除主成分得简单相加带来的负面
影响,算法采用了逻辑函数对选取的几个主成分再进行累计,得
出第j维度的最终分数:
一U)
其中,当主成分F:与信用值负相关时取正号,正相关时取
负号.
5.熵值法
(1)基本原理
建立在信息论熵理论基础的熵值法在求权值方面的应用
比较广泛,其原理基于熵对不确定性信息的度量:信息量越
大,不确定性就越小,熵也就越小;信息量越小,不确定性
越大,熵也越大.根据熵的特性,我们可以通过计算熵值来
判断一个事件的随机性及无序程度,也可以用熵值来判断某
个指标的离散程度,指标的离散程度越大,该指标对综合评
价的影响越大.
(2)熵值法步骤
在对各个维度进行逻辑评分后,进一步使用熵值法来计算各
个维度的权重.这种计算权重的方法使得区分度较高的指标,权
重较大,区分度较小的指标,权重较小.第j个维度的熵值计算
公式:
H7:
一
?)
ln
毒Zxo.一
SCORE=?1.,score(i)=1
五,业务应用
1.评分雷达图
本文结合实际业务背景,通过衡量与PACE这四个概念维度
相关的主要影响因素,
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
出了历史信用,忠诚度,满意度,消
费能力,消费意愿和关键人物这六个对客户信用起主要影响作用
的业务维度.在经过对每个维度的得分进行标准化处理之后,除
了得出信用总分和信用等级外,还可以用雷达图的形式将评分结
果(图4)直观地展现在前台.
忠诚度
关键人物
历史信用
消费意愿
图4雷达图
满意度
消费力
2.评级方法
信用评级将基于客户信用评分,包括综合评分和各项指标评
分,结合业务需要,按照分数排名划分三等九级(A,B,C三等,
AAA,AA,A,BBB,BB,B,CCC,CC,C九级).划分的
界限以排名为原则,如图5所示.
排名等级排名等级排名等级
[0%,lAAA(2550%]髓B(90‰g8%]CCC
(1%,i0叼AA(50礴%]BB(98%,99.7%]CC
(10%,2蕊]A(7890%]B(99.7%,100%]C
图5评级标准
六信用评级系统应用案例
1.分析对象
本文选取广东东莞市全球通用户为分析对象,结合实际业务
背景,从每个维度中遴选出一些具有代表性的重要指标(图6),
为下面的数据收集工作做好准备.本案例利用TeradataWare—
houseMiner的因子分析模块中的主成份分析工具进行建模,并
通过其集成的Teradata数据库功能,抽取了东莞客户2008年九
月份的通讯数据来进行信用评级.
业务堆度蝗业务维度变量业务皴变量
集团内主被叫次数占比是否有年龄资料客户投诉次数
网内主被口1时长占比是否有【队资料客户套餐变换的次数
嗣内主被号码数占比是否有学历
下面以忠诚度为例,介绍单个维度内的主成分分析和逻辑评
分的公式.在对主成分析结果进行Equamax旋转后,我们得到
了因子(主成份)得分矩阵(如图7所示),图8显示了各个因子
use草麟_?中国经贸_..
的特征值和方差贡献率.第一个因子中,网内主被?q占比和网内
主被叫号码数占比的权重较大,因此可以把这个因子解读为网内
交往占比.类似的,其他因子可以依次解读为集团网使用量,在
网时长,使用量和呼叫联通客户的次数.
袅逮内融内主被期内主被平均折
呼叫联通集团内朗由主是否集因子\主被叫
叫时长占号码数占算业务积分主破删被叫号在网时长变量次数占比比客服次鼗团成员
比戛次数码数
F1o.0891&533O.j1一nO射一0125一融00344—0.089l旺O964一O.117—0.?163
F20.48l—n0919nO蛳一n051l_o.08{9一-a0ol羽6Q416_o.?8O.35ifo.o627
F3一O.123一0351一nO567一n2弱O.309000132mO99laO葩603770.鹋5
F4—0.162一a0735一n0979n640.372一a0139a】130.3田-0.119.175
陌O一吐OO.oo3一aO116O.00l7l一0.O(E5nO艘50.Oo39.ool8
图7忠诚度维度主成份分析的因子得分矩阵
因子特征值方差贡献率累计方差贡献率
Fl1.9O2819.O28519.O285
F21.978319.783438.8119
F31.3906l3.905752.7l76
F41.56315.63o468.3481
F51.000410.Oo478.3521
图8特征值与方差贡献率
将五个因子代入逻辑函数,就得到了忠诚度的单维度的评分
公式:
19o285
783521(1+1
l97834l39057
丽丽l563o4l0004
在得到六个维度的的评分之后,再利用熵值法来确定各个维
度的权重,从而得到用户信用的综合评分.各个维度及其主成分
的权重如图9所示.
权重业务维度权重主成份
O.65全停状况O
.29历史信用
O.35欠费状况
O.36增值业务使用量l
0.21增值业务使用量20.
14满意度
O.22套锓变化频率
O.21投诉次数
0.53用户ARPU0
.
06消费力
O.47l乇收情况
综合评分0.1l消费意愿1户ARPU变化趋势
0.45客户资料详实度
O.17关键人物O.31Vip等级
O.24是否为高学历高收入者
0.24网内使用占比
O.25集团网使用量
0.23忠诚度0.18在网时长
0.2使用量
O.13呼叫联客服次数
图9综合评分
?
30?-C中he
3.模型验证
由于电信客户信用评分不存在标准的比较标准,所以为了验
证模型,对十月份的每个等级的欠费客户进行统计,计算出欠费
率和提升率(等级欠费率与总体欠费率的比值),从图l0中可以
看出,随着等级增大,提升率出现了明显的下降趋势,表明信用
等级低的欠费率较高,而信用等级高的欠费率较低,符合业务逻
辑,体现了评分模型的准确性.
1O0000O
1O0o00——?———?—,
10o00.J一//_?,\
1o00-/一
一
,?
1O0r\
10
-
+等级人数
————*,‰
+欠费人数
01C(BBBR确广A
+欠费比例—,1
—1..
001_*_提升率
图10模型验证结果
七,总结与讨论
本文结合主成分分析,逻辑函数和熵值法,成功构造出一个
评分器,在此基础上提出了一个客户信用评估体系.这个体系
能够综合衡量客户潜在存在欺诈可能,为降低收入风险,提升
客户满意度提供了一套完整的分析模型.本文案例结合东莞移
动公司的业务,将评估体系应用到若十关键业务流程当中,并
设想未来跟社会其他行业进行信用数据交换,共同构建跨行业
信用评估体系.
参考文献:
【1】中国移动通信集团公司.中国移动经营分析系统业务
规范
编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载
v2.0.北京:中国移动通信集团公司,2002.
[2]杨建钢:移动电话客户信用控制和管理IJ】通信世界,2005.
O8
【5】PJccardiG.Activelearning:theoryandapplicationstoautomatic
speechrecognition.IEEETransSpeechAudioProcess,2005,15(4l504.
[4】赵悦穆志纯董洁付冬梅何伟:基于QBC主动
学习方法建立电信客户信用风险等级评估模型.北京大学科学学
报,29卷第4期,2007.4.
【5】徐继生王道恒:移动通信用户信用度的预测评估【J】.电信
科学,2002,(817—2O.
【6】高洁:论电信企业客户信用管理系统的构建【J】北京邮电
大学学报(社会科学版),2003年第5卷第O4期.
[7】张建华苟林马慧:电信运营企业信用体系的概念和
内涵.世界电信.2007年第5期.
【8永毅赖潭海罗爱平冉现永:基于社会征信体系的电
信客户信用管理.现代管理科学,2007年第5期.
[9】WeiLiu,JinCui.EntropyCoefficientMethodt0EvaluatetheLevel
ofSustainableDevelopmentofChina?SSports.InternationalJournalofSports
ScienceandEngineering,Vo1.02(2008)No.02,PP.72—78.