sklearn-逻辑回归-制作评分卡

数据集处理

分箱

分多少个箱子合适

分箱要达成什么样的效果

对一个特征进行分箱的步骤

分箱的实现

封装计算 WOE 值和 IV值函数

画IV曲线，判断最佳分箱数量

结论

pd.qcut 执行报错

功能函数封装

判断分箱个数

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行）造成经济损失的可能性。一般来说，评分卡打出的分值越高，客户的信用越好，风险越小。

数据集处理

分箱

要制作评分卡，是要给各个特征进行分档，以便业务人员能够根据新客户填写的信息，为这个新客户来打分。因此在评分卡制作过程中，一个重要的步骤就是分箱，本质就是对特征进行分档。

分箱是评分卡最难，也是最核心的部分。分箱的本质，就是离散化连续变量，好让拥有不同属性的人被分成不同的类别（打上不同的分数）。

分多少个箱子合适

既然是将连续型变量离散化，箱子的个数必然不能太多，最好控制在十个以下，用来制作评分卡，最好能在4~5个为最佳。离散化连续变量必然伴随着信息的损失，而且箱子越少，信息损失越大。
为了衡量特征上的信息量以及特征对预测函数的贡献，银行业定义了概念Information value（IV）：

N 是这个特征上箱子的个数
i 代表每个箱子
good% 是这个箱内的优质客户(标签为0)占整个特征中所有优质客户的比例
bad% 是这个箱子里的坏客户(那些会违约的，标签为1)占整个特征中所有坏客户的比例
WOE 是银行业中用来衡量违约概率的指标，中文叫做证据权重（weight of Evidence），本质就是优质客户比上坏客户的比例的对数，WOEi写作

WOE是对一个箱子来说的，WOE越大，代表这个箱子里的优质客户越多，IV是对整个特征来说的，IV代表的意义由表1 来控制

表1：

可见，IV 并非越大越好，我们想要找到 IV 的大小和箱子个数的平衡点，所以我们会对特征进行分箱，然后计算每个特征在每个箱子数目下的WOE值，利用IV值的曲线，找出合适的分箱个数。

分箱要达成什么样的效果

我们希望在同一个箱子里的人的属性是尽量相似的，而不同箱子里的人的属性是尽量不同的，就是常说的“组间差异大，组内差异小”。
对于评分卡来说，我们希望一个箱子内的人违约概率是类似的，而不同箱子的人违约概率差距很大，即 WOE 差距要大，并且每个箱子中坏客户所占的比重(bad%)也要不同。
我们可以使用卡方检验来对比两个箱子之间的相似性，如果两个箱子之间卡方检验的P值很大，说明他们非常相似，就可以将这两个箱子合并为一个箱子。