大家好!今天跟大家分享的文献是2020年5月发表在Cancer Cell International(即时影响因子4.03)杂志上的一篇文献。文章基于TCGA数据库和GEO数据库中的胃癌相关数据,利用单因素Cox回归分析及LASSO算法分析确定了与胃癌预后紧密相关的4个自噬基因,构建了一个预测胃癌预后的多基因联合预测模型。
题目:Identification and validation of an individualized autophagy-clinical prognostic index in gastric cancer patients
胃癌患者个体化自噬临床预后指标的鉴定与验证
摘要
本文利用GO和KEGG分析胃癌中表达的204个自噬基因,并在Cytoscape软件中构建PPI网络,有28种差异表达的自噬基因在细胞生长,神经元死亡和细胞生长调节中富集,这些基因与铂类药物耐药,凋亡和p53信号通路有关。之后利用Cox回归分析和LASSO算法筛选了4个基因构建预后风险评分模型。根据风险评分将患者分为低风险和高风险,并进行生存分析以评估风险评分的预后预测价值,结果表明风险评分是单独可用的预后指标。生存曲线表明低风险患者的生存时间明显高于高风险患者。最后结合临床病理特征和风险评分,建立了列线图以预测个体存活率,通过外部数据GSE62254验证了列线图具有预测胃癌患者预后的能力。
流程图

结果概述
1. 数据的获取与整理:
通过HADb数据库(http://www.autophagy.lu)获取自噬相关基因;从TCGA数据库中获取胃癌转录组数据集(TCGA-STAD)用于建立模型;从GEO数据库获取GSE62254数据集用于模型验证。
2.基因差异表达及功能分析
作者通过HADb数据库得到了232个人类自噬相关基因,其中204个基因在TCGA胃癌转录组数据中有表达,共有28个自噬相关基因在胃癌转录组数据中差异表达(图1)。对这28个基因进行GO,KEGG和PPI分析,结果如图2。GO分析表明,这些自噬基因可以在几个基本的生物学过程(BP)中富集,包括细胞生长,细胞蛋白定位的正向调节,神经元死亡,细胞生长的调节(图2a)。KEGG分析显示28个自噬基因主要与自噬,铂类药物耐药性,细胞凋亡和p53信号通路有关(图2b),利用PPI构建的蛋白作用网络见图2c。


3. Cox回归及LASSO算法建立预测模型
TCGA-STAD中共表达的204个自噬基因,使用单因素Cox回归分析得到了10个与胃癌相关的基因(图3a),利用LASSO算法筛选出了8个自噬基因(图3b-d)。之后通过多因素Cox回归分析这8个自噬基因,其中4个基因(GRID2、ATG4D、GABARAPL2和CXCR4)与胃癌的预后有关(表1),3个基因(GRID2、GABARAPL2和CXCR4)HR > 1是危险基因,1个基因(ATG4D)HR < 1是保护基因。随后作者根据4个自噬基因的表达水平及风险系数算出每位患者的风险评分,将患者分为低风险和高风险两类(图4a),通过热图发现高风险患者倾向于高表达危险基因,低风险患者倾向于高表达保护基因(图4b)。



4. 模型评估
基于TCGA-STAD数据,单变量分析显示,风险评分与总生存期(OS)显著相关(HR = 1.648,95% CI = 1.385 – 1.960,P < 0.001)(图5a)。多变量分析显示,风险评分是单独可用的预后指标(HR = 1.922,95% CI = 1.573 – 2.349,P < 0.001)(图5b)。生存曲线显示,低风险评分患者的生存时间显著长于高风险评分患者的生存时间(图5c)。ROC分析表明,风险评分的AUC显著大于其他指标,这证明本模型比其他单个指标具有更好的预测预后的能力。

5. 列线图构建及外部数据验证
通过结合四个自噬基因特征,构建列线图预测3年和5年OS。如图6a所示,分配给每个因素的打分与其对生存的风险贡献成正比,校正曲线可以匹配(图6b,c)。列线图也在GSE62254胃癌数据集中得到了验证,其3年和5年校正曲线分别如图6d,e所示。


结语
本文聚焦于胃癌与自噬基因的相关研究,重点讨论特定生物学功能的基因在胃癌预后中的作用。基于TCGA及GEO公共数据库,通过Cox回归分析及LASSO算法构建了胃癌预后预测模型,之后又利用外部数据对模型进行了验证。本文有两点需要改进:一是自噬基因功能分析部分与后续模型构建验证部分有脱节,没有基于差异表达自噬基因进行后续模型构建;二是仅利用外部数据进行了列线图的验证,校正曲线并不是非常好,无法充分证明模型的可扩展性,结果说服力不强。但本文方法选用合理,分析思路清晰,同样适用于其他疾病与特定生物学功能基因的相关研究,值得借鉴。