评分卡制作过程中关键参数设定的思考
评分卡、列线图和网络APP都是预测模型进入生产场景的形式。评分卡,常用于银行或金融机构的贷款审批过程中。其原理在于通过一系列与借款人相关的因素(如年龄、收入、职业、信用记录等)来为每个人打分,从而判断其是否有资格获得贷款以及贷款的风险程度。评分卡上刻有分数刻度和相应阈值,可以根据借款人的信息找到对应的分数,再汇总得到总分数,作为贷款审批的参考。评分的形式在医学领域有常用,例如对患者进行分级,评估手术的风险等。
在制作评分卡(R的scorecard包)的过程中,遇到了三个关键的参数,1. 基础分数,默认值为600;2. 基础OR值,默认值为1/19;和3. 翻倍分数,默认值为50。遍查网上资料暂时没有看到这三个参数如何设定,提一点自己的想法。
观点1:这三个参数是可以改变的
设定这三个参数关系到评分卡整体的得分范围,查询资料后,有的观点认为这三个参数代表了一种严格的科学的评分体系,不可轻易的改变。我认为并不存在这样一种科学体系。一方面,没有任何资料强调这三个值该保持不变,另一方面,评分卡的应用场景多种多样,模型也不同,不可能存在一套值适用所有场景的情况。
观点2:这三个参数是根据模型OR值设定的
首先强调使用模型计算OR值之前,需要对变量进行WOE(Weight of Evidence)变换,变换之后的各个变量之间的OR值就才有可比性,可以为后续的计算提供基础。
- 基础OR值,我认为这里指的是逻辑回归模型计算得到的截距的OR值,代表了在没有任何危险因素出现的情况下基础的OR值。所以,这个数值在不同的模型中是不一样的,这个特点我认为是合理的,没想通的是在后续计算过程中,哪里使用了这个数值;
- 基础分数,与上面类似,基础分数代表了没有危险因素出现情况下的分数,可以设定为600,也可以设定为10,随意性比较大,取决于评分卡作者希望评分落在哪中分数范围之内;
- OR翻倍分数:首先,翻倍的分数是一个相对的分数,OR由1变成2,或者由10变成20都叫翻倍,所以这个参数与两个间距有关。一个是OR间距,我认为是所有OR值得和(不包括截距的OR值,描述的是OR增长变化的那一部分),比如有三个变量的OR值分别为1,2,3,那么这个OR间距为1+2+3=6。另外一个是分数间距,是我们人为设定的,比如,我们希望得到的最高分数为100,那么这个得分间距就是100-10=90。确定了这两个间距之后,翻倍分数就等于90/6,即OR增长1倍,所增加的分数。
最后也不得不说,这是个人的观点,之前研究过列线图的原理,从中获得了一些启发,虽然感觉具有相当的合理性,但是并不确定就是这样。
总结
评分卡是医学预测模型临床应用的一种形式,方便,快捷,易于理解,与列线图和网页APP相比也有一定的优势,也是值得充份了解学习的一种形式。