用立方样条联合SHAP分析在危险因素鉴定中的作用
1. SHAP分析告诉我们变量之间的关系
SHAP分析计算的SHAP值代表了某变量对于结局指标的贡献,代表了相关性的趋势,SHAP分析中的散点图是对以上关系的可视化,从中我们可以直观看到随着变量值的变化,其对结局指标的贡献。如下图,从中可以看到变量之间的关系不是直线关系,但是,如何描述这种关系就是一个问题,比如,曲线的拐点在哪里?等等。因为这变量之间的关系往往是曲线关系,而拟合曲线关系是立方样条回归的强项。
2.立方样条回归拟合和可视化
对于曲线的拟合过程,包括检查是不是曲线,还要给出拐点,最终对变量之间的关系给出更加详细的解释。最重要的R包是rms,可以对线性回归、逻辑回归和cox回归等进行拟合,可视化则用的是ggrcs包。
3. 两者是不是一个很好的组合?
SHAP分析的作用是发现。通过便捷的操作发现预测变量和结局变量之间的关系,在没有SHAP分析之前,我们不容易发现变量之间的关系,需要通过繁琐的步骤,不断地尝试,来探索变量之间的关系。
样条回归的作用是描述。样条回归有特点也是可以拟合某个变量的非线性趋势,而不是整体评估多个变量对结局指标的贡献。通过SHAP分析我们大概知道变量之间的关系是不是曲线,有几个拐点,但是并不确切,样条回归有助于确切的指出以上的参数,最终使我们可以确切地指出变量之间的关系,最终让我们对于变量之间的关系有了更多的认识。
所以,个人认为两者是一个不错的组合,说明了一些以前我们不容易说明的问题。这个组合结合之前的Boruta变量筛选过程,我们可以实现一个快捷、准确的变量鉴定流程。