一、引言
乳腺癌作为女性常见的恶性肿瘤之一,对女性健康构成威胁。随着医疗技术的不断进步,个性化医疗逐渐成为乳腺癌治疗的重要方向。通过深入研究乳腺癌患者的风险评估和个性化预测,可以帮助医生更准确地制定治疗方案,提高治疗效果,降低不必要的治疗费用和副作用。因此,本文旨在探讨基于 QHScrnomo 模型的乳腺癌患者风险评估与个性化预测的有效性和应用前景。QHScrnomo 模型是一种基于机器学习的生存分析模型,已在乳腺癌研究中取得了显著进展。该模型结合了多种临床特征和分子标志物,能够更精准地预测乳腺癌患者的生存情况和治疗效果,为个性化医疗提供了新的思路和方法。
二、QHScrnomo 简介
2.1 QHScrnomo 模型基本原理
QHScrnomo 模型是一种基于机器学习的生存分析模型,用于乳腺癌患者的风险评估和个性化预测。其基本原理如下:
-
数据收集:QHScrnomo 模型首先需要大量的乳腺癌患者数据,包括临床特征、生物标志物、影像学资料等。这些数据将被用来训练模型,建立乳腺癌患者生存情况与多种因素之间的关联模型。 -
特征选择:在数据预处理阶段,QHScrnomo 模型会对输入数据进行特征选择,筛选出对乳腺癌生存情况具有重要影响的特征。这有助于提高模型的预测能力和准确性。 -
模型训练:QHScrnomo 模型采用机器学习算法,如深度学习、支持向量机等,通过对已知数据的学习和训练,建立起乳腺癌患者生存情况的预测模型。模型会根据患者的特征数据,预测其未来的生存情况。 -
预测与评估:训练好的 QHScrnomo 模型可以用来预测乳腺癌患者的生存率、治疗效果等信息。同时,模型还会进行评估,验证其预测结果的准确性和可靠性。
总的来说,QHScrnomo 模型通过整合多种临床特征和分子标志物信息,利用机器学习技术构建预测模型,实现对乳腺癌患者风险评估和个性化预测。通过不断优化模型和更新数据,可以提高模型的预测精度,为乳腺癌患者的治疗提供更科学的依据。
2.2 QHScrnomo和cox比较
QHScrnomo 模型和 Cox 比例风险模型是两种用于生存分析的常见方法,它们在乳腺癌患者的风险评估和预测中具有不同的特点和优势:
「QHScrnomo 模型」:
-
QHScrnomo 模型是基于机器学习的方法,可以处理大规模数据并挖掘复杂的关联关系。 -
该模型能够综合考虑多种临床特征、生物标志物和影像学资料,具有较强的预测能力和个性化定制能力。 -
QHScrnomo 模型可以不断学习和更新,逐步优化预测效果,适用于需要动态调整的预测场景。
「Cox 比例风险模型」:
-
Cox 模型是一种统计模型,用于分析生存数据中的风险因素和生存时间之间的关系。 -
该模型基于半参数方法,可以估计各个危险因素对生存时间的影响程度,是常用的生存分析工具之一。 -
Cox 模型相对简单直观,容易解释结果,适合于需要对特定因素进行精确分析的情况。
如果需要充分利用大规模数据、挖掘复杂关联关系并实现个性化预测,可以考虑使用 QHScrnomo 模型;而如果更注重对特定因素的精确评估和解释,Cox 比例风险模型可能是更合适的选择。综合考虑模型的优势和局限性,结合实际需求选取适合的模型进行生存分析是非常重要的。
三、实例演示
-
「数据集准备」
library(survival)
head(gbsg)
结果展示:
pid age meno size grade nodes pgr er hormon rfstime status
1 132 49 0 18 2 2 0 0 0 1838 0
2 1575 55 1 20 3 16 0 0 0 403 1
3 1140 56 1 40 3 3 0 0 0 1603 0
4 769 45 0 25 3 1 0 4 0 177 0
5 130 65 1 30 2 5 0 36 1 1855 0
6 1642 48 0 52 2 11 0 0 0 842 1
-
「示例数据集介绍」
> str(gbsg)
'data.frame': 686 obs. of 10 variables:
$ age : int 49 55 56 45 65 48 48 37 67 45 ...
$ meno : int 0 1 1 0 1 0 0 0 1 0 ...
$ size : int 18 20 40 25 30 52 21 20 20 30 ...
$ grade : int 2 3 3 3 2 2 3 2 2 2 ...
$ nodes : int 2 16 3 1 5 11 8 9 1 1 ...
$ pgr : int 0 0 0 0 0 0 0 0 0 0 ...
$ er : int 0 0 0 4 36 0 0 0 0 0 ...
$ hormon : int 0 0 0 0 1 0 0 1 1 0 ...
$ rfstime: int 1838 403 1603 177 1855 842 293 42 564 1093 ...
$ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...
age:患者年龄
meno:更年期状态(0表示未更年期,1表示已更年期)
size:肿瘤大小
grade:肿瘤分级
nodes:受累淋巴结数量
pgr:孕激素受体表达水平
er:雌激素受体表达水平
hormon:激素治疗(0表示否,1表示是)
rfstime:复发或死亡时间(以天为单位)
status:事件状态(0表示被截尾,1表示事件发生)
-
「划分训练集和测试集」
# 划分训练集和测试集
set.seed(123)
data <- gbsg[,c(-1)]
# 划分训练集和测试集
set.seed(123)
train_indices <- sample(x = 1:nrow(data), size = 0.7 * nrow(data), replace = FALSE)
test_indices <- sample(setdiff(1:nrow(data), train_indices), size = 0.3 * nrow(data), replace = FALSE)
train_data <- data[train_indices, ]
test_data <- data[test_indices, ]
-
「模型拟合」
install.packages("QHScrnomo")
library(QHScrnomo)
dd <- datadist(train_data)
options(datadist = "dd")
cox <- cph(Surv(rfstime,status == 1) ~ age + meno + size + grade + nodes + pgr + er + hormon, data = train_data,x = TRUE, y = TRUE, surv =TRUE,time.inc = 120)
cox
# 转化为风险竞争模型
crr <- crr.fit(cox, cencode = 0, failcode = 1)
crr
# 预测
set.seed(123)
train_data$tenf <- tenf.crr(
crr,
time = 120)
# 计算c-index
c_index <- cindex(
prob = train_data$tenf,
fstatus = train_data$status,
ftime = train_data$rfstime,
type = "crr",
failcode = 1
)
结果展示:
> cox
Cox Proportional Hazards Model
cph(formula = Surv(rfstime, status == 1) ~ age + meno + size +
grade + nodes + pgr + er + hormon, data = train_data, x = TRUE,
y = TRUE, surv = TRUE, time.inc = 120)
Model Tests Discrimination
Indexes
Obs 480 LR chi2 71.87 R2 0.140
Events 213 d.f. 8 R2(8,480)0.125
Center -0.56 Pr(> chi2) 0.0000 R2(8,213)0.259
Score chi2 80.66 Dxy 0.370
Pr(> chi2) 0.0000
Coef S.E. Wald Z Pr(>|Z|)
age -0.0245 0.0113 -2.16 0.0312
meno 0.3494 0.2192 1.59 0.1110
size 0.0100 0.0050 2.02 0.0438
grade 0.1731 0.1213 1.43 0.1536
nodes 0.0470 0.0091 5.17 <0.0001
pgr -0.0024 0.0007 -3.54 0.0004
er 0.0005 0.0005 1.00 0.3164
hormon -0.3960 0.1533 -2.58 0.0098
> crr
convergence: TRUE
coefficients:
age meno size grade nodes pgr er hormon
-0.024440 0.349000 0.010030 0.172900 0.046970 -0.002399 0.000481 -0.396100
standard errors:
[1] 0.0119900 0.2243000 0.0052410 0.1159000 0.0137000 0.0007350 0.0004701 0.1527000
two-sided p-values:
age meno size grade nodes pgr er hormon
0.04200 0.12000 0.05600 0.14000 0.00061 0.00110 0.31000 0.00950
> c_index
N n usable concordant cindex
4.800000e+02 4.800000e+02 6.587200e+04 4.283700e+04 6.503067e-01
-
「模型校验」
# 绘制列线图
nomogram.crr(
fit = crr, #列线图对象
failtime = 120, # 时间点
lp = FALSE,
xfrac = 0.65,
fun.at = seq(0.2, 0.8, 0.1),
funlabel = "Predicted risk"
)
# 绘制DCA曲线
library(dcurves)
library(magrittr)
train_data$pred <- predict(crr, time = 120)
library(dcurves)
dca(Surv(rfstime,status == 1) ~ pred,
data = train_data,
time = 120,
label = list(pred="model")) %>%
plot(smooth = TRUE)
*「未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。」