1. 群体稳定性指数PSI
通过 PSI(Population Stability Index) 指标,可以得到不同样本下,模型在各分数段分布的稳定性。用于衡量两个群体(比如两个时间点、两个子群体等)之间稳定性的指标。通常PSI被用于评估信用风险模型、预测模型等在不同时间点或不同群体中的性能变化。
PSI = SUM(实际占比-预期占比) * ln(实际占比/预期占比)
通常期望分布可以是参考的基准分布,比如在时间点1的分布作为基准,而实际分布是在时间点2的分布。
风控中常使用PSI衡量模型或特征的稳定性。PSI还是一种主要的模型监控指标,因为模型部署上线后,模型的拒绝率越高,其线上KS值越低,也就越无法体现模型的真实效果,所以通常使用PSI监控线上模型与线下模型的差异,从侧面展示模型真实效果与预期效果的偏差。
PSI的计算中同样涉及分箱,实践证明,等频分箱的效果要好于等距分箱。PSI 可用于计算模型在训练集与时间外样本集OOT上的稳定度。
结果: PSI 的值越大,表示两个群体之间的分布差异越大
1. PSI<0.1: 稳定性很高;
2. 0.1≤PSI<0.25: 稳定性一般;
3. PSI≥0.25: 稳定性较差。
稳定性是一个相对的概念,只有通过对比才能知道模型是否稳定。在信用评分模型中,为了进行对比,至少需要两个分布结果,一个是预期分布结果一个是实际分布结果。
1. 在模型验收前,需要对模型的稳定性进行评估。
使用验证样本作为实际分布,使用训练样本作为预期分布。
2. 在产品验收阶段
使用模型上线时的 OOT 样本作为预期样本,使用 非 OOT 时段的近期抽样样本作为实际样本。
1.3 计算 PSI
1. 分箱:等频分箱、等距分箱
2. 计算实际分布
1. 测试样本距离当前日期越近越好;
2. 选择进行测试的样本,把样本传入模型得到实际测试结果;
3. 再根据上一步选择的分箱方式,将实际测试结果同样进行分箱,计算分箱后的占比。
3. 计算 PSI 数值
index = (实际占比-预期占比) * ln(实际占比/预期占比)
PSI = sum(index1 + index2 + ...+ indexn)
1.4 建议
1. PSI 上线时关注, 上线后仍需持续关注;
2. 关注PSI变化因素:客群变化、数据源变化;
3. 上线后, 根据业务场景对模型稳定性的要求, 对模型 PSI 进行按日/月/季度监控。
2. WOE编码 -- 证据权重
WOE(Weight of Evidence)是一种对原始自变量进行编码的形式,表示的是“当前分组中响应客户占样本中所有响应客户的比例”和“当前分组中没有响应的客户占样本中所有没有响应的客户的比例”之间的差异。。它的定义为:
其中, 是这个分组中响应客户占样本中所有响应客户的比例, 是这个分组中未响应客户占样本中所有未响应客户的比例。
WOE也可理解为,当前分组中响应客户和未响应客户的比值与所有样本中这一比值之间的差异,这个差异是用对这两个比值的比值取对数来表示的。WOE 越大,这种差异越大,这个分组里的样本响应的可能性就越大;WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
在对短文本类型的变量进行转换时,WOE映射的效果相比于one-hot编码和词嵌入embedding技术要更有效。其实在最早的评分卡中,无论是对字符型变量还是对数值型变量都要进行WOE映射。对数值型变量进行WOE映射主要是为了弱化极值影响、增加模型鲁棒性。但树模型对极值和变量分布波动并不敏感,因此在XGBoost中只对字符型变量进行WOE映射。
注意分箱不同,得到的WOE映射值会有很大不同。一般基于负样本占比差异最大化的分箱原则,所期望得到的分箱结果应该在5-10箱,且每一箱之间的负样本占比差值尽可能大(箱合并原则),每一箱的样本量不能小于整体样本的5%(可根据分箱结果调整,原则是不要太小)。换言之,主要通过控制划分后的总箱数,来迭代进行箱的合并。分箱个数以及最小样本占比需要使用者根据实际情况进行微调。
3. 时间外样本集 OOT
实际建模过程中通常使用3个数据集:训练集、测试集、时间外样本集(Out of Time),OOT用于描述模型在时间维度上的性能变化。
OOT通常指的是模型在训练时使用的数据集与将来要在实际应用中使用的数据集有显著的时间差异(数据分布发生变化),导致模型在未来的预测性能下降。这种情况可能由于数据的时效性、外部环境的变化等原因引起。
解决OOT问题的一种常见方法是使用群体稳定性指数PSI 等工具来监测模型在不同时间段或数据分布上的性能变化。通过在模型上线前和上线后对模型性能进行监测,可以及时发现潜在的OOT问题并进行调整。
预防OOT问题的方法:
1. 及时更新训练数据: 确保模型的训练数据集包含最新的信息,以适应未来的数据分布;
2. 动态更新模型: 考虑使用增量学习或定期重新训练模型,以捕捉潜在的数据分布变化;
3. 监测模型性能: 定期监测模型在不同时间点或数据分布上的性能,使用PSI等指标进行评估。
通过这些方法,可以提高模型对未来数据的适应能力,减少由于时间上的变化而导致的性能下降问题。
4. KS
KS值对模型的评价不受样本不均衡问题的干扰,但仅限于模型评价。想获得表现更好的模型,还需要针对不均衡问题进行优化。
5. 特征筛选
XGBoost等树模型只关心数值的排序,对变量的分布和取值范围并不敏感,所以不需要进行归一化处理。为保证树模型的精度,对数值型变量也未做分箱处理。
样本权重weight与代价敏感学习中的权重作用并不相同,考虑到通常建模中会对样本进行抽样,为了反映真实场景下的KS值和PSI,需要使用采样比例的倒数作为权重,进行样本量还原。因此权重只参与KS值和PSI的计算,不参与模型训练。
因为信用评分模型的稳定性很大程度上取决于模型中每个变量分布的稳定性,为保证模型上线后的稳定性,需要对模型中稳定性较差的变量进行筛选。在传统评分卡中,通常还会根据三个建模数据集上每一个特征的信息值 IV (Information Value)、最大信息系数MIC (Maximal Information Coefficient)、PSI等指标对特征进行筛选(PSI既可用于模型评价又可用于特征筛选,当单变量PSI>0.02时,需要对该特征做调整或者直接删除此特征)。
注意:IV通常用于衡量单特征对区分任务的贡献程度,并不考虑特征的组合效果。因此在xgb 这种具备特征交叉能力的模型中,IV值通常只用于粗筛选。
6. 自动化调参
业务期望模型的训练集KS值和时间外样本集KS值足够接近,且时间外样本集的KS值足够大。前者用于保证模型的跨时间稳定性不会很差,而后者用于保证模型的精度足够高。因此给出调参目标为两者的组合。
注意:KS值的分配权重w可以根据实际情况进行调节。比如当业务稳定性较差时,应更多关注两者KS值的差值,因此需要将w从默认的0.2改为一个更大的值。
7. 生成模型报告
1. 模型报告所需字段:KS值、负样本个数、正样本个数、负样本累计个数、正样本累计个数、捕获率、负样本占比;
2. KS值取得最大值的箱越靠前,表示该模型越好;
3. 负样本占比一般呈递减趋势,如果出现波动的箱编码越靠前,说明模型的排序能力越弱。