这一期咱们聊聊筛选变量的指标——IV值。
计算公式如下:
看公式有没有很熟悉,大家没有看错,其中一部分就是WOE的计算公式。区别就在于WOE是对一个变量的每个分组的计算,IV值是对一个变量的统计指标。
如上图所示,当前使用率的IV值为1.415。
IV值的作用就是衡量一个变量整体的预测能力,好处在于每个变量的IV值是可比的。所谓的IV值(informationvalue),指的是一个变量对于判定客户属于y1还是y0的信息贡献,贡献越大,IV值越大。
然而,我们仅从公式就可以看出,对于同一个变量来说,分组分的越多,它的IV值自然越大。但是分组过多会产生另外一个问题,每个分组的数据量会变少,导致每个分组不稳定。所以我们在进行变量分箱时不能只考虑提高变量的IV,也要兼顾稳定性与业务意义。
在进行变量初筛的时候,可以直接将IV值小于0.02的变量剔除,不参与后面的算法拟合过程。这些变量即使进入变量拟合库,对判定客户的贡献也基本上等于没有。
好了,这期就先聊到这里,下期再见!