一、模型简介
目前,生存分析领域,最常用的是Cox比例风险回归模型,该模型具有良好的特性,不仅可以分析各种自变量对生存时间的影响,而且对基准风险分布不作任何要求(半参数模型)。Cox模型使用时要满足一定的条件,其中最为大家熟知的“PH比例风险”假定,专业点讲,就是在时间t,协变量x作用下,个性风险率相对于基准风险率之比与时间无关,不随时间t的变化而变化;通俗点说,就是生存曲线要平行不能交叉。如果违反“PH假定”Cox模型不再适用,需要其他方法替代。本文介绍一种替代模型Buckley-James模型。该模型是由Buckley 和 James于1979年提出,该模型具有线性回归模型的特点,其参数估计方法是最小二乘法的一种校正,通用引用一个伪随机变量,使其满足一般的正则条件下,能够用于具有右删失数据的分析。而且,在1993年,Hillis等人证明Buckly-James模型的参数估计要比其他模型的参数估计优越。
二、 模型适用条件
因BJ模型是线性回归模型的改进,故其需满足线性回归模型的适用条件(1)线性;
(2)方差齐。
检验是否满足上述条件的方法:
(1)修正残差图判定法;
(2)样条函数判定法。
三、模型原理
该模型假定生存时间T,或者其简单变换与协变量x之间呈线性关系。即:
由于生存时间存在右删失,所以数据中只能观测到删失时间,因此上式不再适用,通常的最小二乘也无法估计出模型的参数,为此,Buckly-James引入了一个伪随机变量:
这里是指示变量。同时也证明了如下线性关系:
所以BJ模型实际是一种将因变量Y改进后(考虑删失情况)的线性回归模型,该模型对生存时间分布不作任何要求。线性回归系数估计用到了高斯的最小二乘法,BJ模型系数估计用到的是校正后的最小二乘法。
有研究显示,连续性自变量对BJ模型估计值的影响可以忽略,而当自变量为分类变量时,BJ估计值的偏倚是比较大的。提示在实际应用时,尤其是单个自变量的情形下,要谨慎考虑分类自变量估计值的准确性,为此可以考虑用Bootstrap法估计参数值并得到可信区间。
四、模型应用案例基于R软件
这里以一份口咽癌数据为例:
数据包含195条观测13个变量,涉及研究对象性别,年龄、分期等临床指标和患者生存时间和生存状态;
(1)先读入并打包数据
(2)建立BJ模型:
BJ模型的建立和cox模型非常像,也会报告模型各指标系数及是否有意义的变量。
与线性回归分析一样,对建立的模型做模型是否有意义的假设检验,假设检验会给出ANOVA分析结果,从上述的结果可见模型中只有T分期有意义,年龄和性别无意义。
做模型的summary(f1),可以发现年龄AGE、T分期和生存时间成反比
利用BJ模型结果做出的Nomogram结果与Summary表型出一致的结果。
五、总结
BJ模型作为回归模型的一种,自然也有回归模型的基本功能,如因素筛选、预测等等。
在应用时除了要求线性和方程齐(本篇未展示检验过程)要求外,还需考虑一定的删失比。
与COX模型相比,选择方案如下:
当数据不满足COX回归的PH假定(生存曲线相交),BJ模型是Cox模型很好的补充。
本公众号部分精彩历史文章:
04:如何在R软件中求一致性指数(Harrell'concordance index:C-index)?
05:Nomogram 绘制原理及R&SAS实现.
06 :Lasso方法简要介绍及其在回归分析中的应用
07 : 最优模型选择中的交叉验证(Cross validation)方法
08 : 用R语言进行分位数回归(Quantile Regression)
09 : 样本数据中异常值(Outliers)检测方法及SPSS & R实现
10 : 原始数据中几类缺失值(Missing Data)的SPSS及R处理方法
11 : [Survival analysis] Kaplan-Meier法之SPSS实现
12 : [Survival analysis] COX比例风险回归模型在SPSS中的实现
13 : 用R绘制地图:以疾病流行趋势为例
14 : 数据挖掘方法:聚类分析简要介绍 及SPSS&R实现
15 : 医学研究中的Logistic回归分析及R实现
16 : 常用的非参数检验(Nonparametric Tests)总结
17 : 高中生都能看懂的最小二乘法原理
18 : R语言中可实现的常用统计假设检验总结(侧重时间序列)
19 : 如何根据样本例数、均数、标准差进行T-Test和ANOVA
20 : 统计学中自由度的理解和应用
21 : ROC和AUC介绍以及如何计算AUC
22 : 支持向量机SVM介绍及R实现
23 : SPSS如何做主成分分析?
24 : Bootstrap再抽样方法简介
25 : 定量测量结果的一致性评价及 Bland-Altman 法的应用
26 : 使用R绘制热图及网络图
27 : 几种常用的双坐标轴图形绘制
28 : 遗失的艺术—诺谟图(Nomogram)
29 : Nomogram 绘制原理及R&SAS实现(二)
30 : WOE:信用评分卡模型中的变量离散化方法
31 : 结构方程模型(SEM)简介及教程下载
32 : 重复测量的多因素方差分析SPSS实现操作过程
回复文章前代码数字如“04”即可查看或直接查看历史文章。
公众号:survival-analysis QQ:8243033
邮箱:8243033 @ qq.com 欢迎关注!