评分卡模型设计里面,最重要的一环就是Y的定义和好坏样本的选择,即样本范围选择和Y变量确定。一般来说,产品评分卡开发需要有需求、设计、开发、测试、部署上线等过程。需要思考几个问题:
1.需要做几个评分卡模型,根据贷款产品的类型、场景、客群分类、数据可用性进行模型细分。
2.业务目标是什么?例如预测客群贷款后6个月内违约的概率,对违约高风险客户进行拦截。
3好坏客户如何定义,样本如何选择等问题。
为了解决以上的这些问题,需要确定几个内容(业务目标、表现期、观察点、观察期、逾期表现),主要通过滚动率矩阵、vintage曲线、产品制度来最终确定。
▍Y定义
业务目标:预测客群贷款后未来一段时间内可能逾期的概率,拦截逾期概率较高的客群。
好坏定义:通过滚动率矩阵分析,可以确认客群逾期到什么程度再还款的概率极低,一般客群逾期M2+就不再还款。定义坏客户为M2+,好客户为逾期0天。逾期在0~M2之间的客群就是灰客户。
表现期定义:表现期就是vintage曲线未来一段时间内趋于稳定的长度,表现期就是业务放款后客群还款一段时间后,会完全暴露出好坏逾期情况,即需要多久后客群会暴露出好坏表现。例如12期的贷款产品,一般表现期为9期。业务目标就是预测客群贷款后还款9个月内可能逾期的概率。那表现期不足9期的客户就是灰样本。
观察点定义:贷款A卡评分模型的观察点一般就是贷款申请时点。
观察期定义:观察期一般用来提取样本的预测特征变量,观察期一般要长些,一般是近2年,例如部分征信指标为近24个月银行贷款查询次数等。
▍剔除灰样本
1.剔除被前置风控规则命中的样本;
2.剔除表现期特殊客群的样本
3.剔除未提款客群的样本
4.剔除表现期不足9个月客群的样本
5.剔除逾期状态不足M2+客群的样本
注释:另外需要考虑客群是否需要分群建模。
▍样本选择与Y定义
样本一般分为训练集、测试集、时间外验证集,进行模型的训练、参数选择、验证。对于Y目标变量的定义不同,建设出来的A卡评分模型应用场景就会不同,那么选择样本客群就会不一样。评分模型建设前提,就是未来客群样本分布与历史进件的客群样本分布保持一致且独立。评分模型才会有效地准确预测未来进件客群的违约概率。
常见的Y定义,例如A卡根据Y的表现期分前3期(偏欺诈)和前6期、前9期去做不同的组合A卡;坏客户定义历史最大逾期天数15+或30+;基于组合矩阵来进行客户综合的风险评级。对Y变量给予不同的短中长期的表现期,建设不同组合的A卡评分,建设A卡评分矩阵,可以更加精细化管理进件客群。建设评分卡模型主要基于逻辑回归、Xgboost和LightGBM机器学习模型。