前言:
当一张评分卡构建完成时,筛选出一组特征生成了分数,我们会想要知道这个分数是否靠谱,即是否可以依赖这个分数将好坏客户区分开来,这个时候就需要评判评分卡有效性的指标。
测量评分卡好坏区分能力的指标有许多,本文就为大家介绍几个常用的定量指标:
1. 散度(分数为连续函数)与信息比率(IV);
2. KS值
在这篇文章当中,花了极大的笔墨从数学的角度证明了KS值的存在性和函数性质问题:
为什么F(s|B)为凹函数、F(s|G)为凸函数?
为什么F(s|B)-F(s|G)存在极大值(最大值)?
为什么F(s|B)曲线在F(s|G)曲线之上?
3. ROC曲线、AUROC值与GINI系数。
----------------------------------------------------------------------------------
一、 散度与IV值
1.1 散度
散度为信息比率的连续版本。而评分卡分数是基于有限样本计算出的分数分布,并不一定是完全连续函数,所以就衍生出了离散版本的散度----信息比率IV。
1.3 IV值的应用
在实际应用当中,IV值通常用来筛选变量,IV值越大,该变量的好坏区分能力越强。在评分卡建模的过程中,利用IV值筛选变量也是非常重要的一个环节。
从IV值的公式中,易得变量的分组越多,IV值越大。但是分组分的太多,就会使得每个分组的数据量变少,导致细项分组的分布不稳定。所以,我们在使用IV值筛选变量的时候,不能为了提高IV值一味地将分箱的数目提高,也要兼顾变量的业务含义和分布的稳定性。
实际计算过程如下表:
----------------------------------------------------------------------------------
如下图所示,KS统计量是F(s|G)和F(s|B)间距离最大的那条红线的长度。
仔细观察图形,存在如下两个问题:
1. 为什么F(s|B)为凹函数、F(s|G)为凸函数?
2. 为什么F(s|B)-F(s|G)存在极大值(最大值)?
3. 为什么F(s|B)曲线在F(s|G)曲线之上?
在解释这3个问题之前,让我们先来做个完美假设:
上述图形描述的是一个理想的评分卡系统的好坏客户累计分布情况:即分数越高,好客户占比越大,分数越低,坏客户占比越小。
理想假设:假设存在一个完美的评分卡,使得随机变量score分别在好客户下的条件概率分布函数f(s|G)严格单调递增、即分数越高,f(s|G)=P(score=s|G)的概率越来越大,在坏客户下的条件概率分布函数f(s|B)严格单调递减,即分数越低,f(s|B)=P(score=s|B)的概率越来越大。
现在,我们来看在实际应用当中的计算过程,如下表:
----------------------------------------------------------------------------------
三、 ROC曲线与AUROC值;
3.1. ROC曲线
ROC曲线也是评分卡度量指标中常用的指标工具,在介绍KS统计量的时候,其分布函数是由好客户和坏客户对应的累计概率密度函数F(s|B)与F(s|G)随着分数s变化的图形,而ROC曲线是好客户的累计概率密度相对于坏客户的累计概率密度函数的图形,如下图所示:
-------------------------------------------End-----------------------------------
0



热爱生活,热爱学习。
永远年轻,永远热忱。
知乎:金融建模
微信号:cutewendan
公众号:风控汪的数据分析之路


