文章标题:通过 WGCNA 和机器学习识别和验证与免疫和氧化应激相关的糖尿病肾病诊
发表年限:2023年
期刊:Frontiers in Immunology
影响因子:5.7
研究背景:
糖尿病肾病(DN)以蛋白尿、高血压和肾功能进行性减退为特征,是发达国家终末期肾病最常见的病因,造成了严重的社会和经济负担。研究表明,随着全球糖尿病发病率的上升,DN患者的人数也在不断增加,预计在未来20年左右的时间里,全球糖尿病发病率将从5.37亿人上升到7.83亿人。与此相反,目前的治疗方案强调肾素-血管紧张素系统阻断、血压管理和血糖控制。因此,DN诊断和治疗迫切需要新的靶点。近年来,随着生物信息学的发展,其研究技术已被积极用于探索包括DN在内的多种疾病的靶点。
研究结果:
本文中,作者使用R软件包"WGCNA"构建了WGCNA,以识别与糖尿病肾病患者免疫细胞相关性最高的模块。 具体来说,首先对样本数据进行了预处理,并剔除了异常值。随后,"WGCNA"软件包构建了相关矩阵。选择最佳软阈值将相关矩阵转换为邻接矩阵,并根据邻接矩阵创建拓扑重叠矩阵(TOM)。利用基于TOM的相异性度量,采用平均关联分层聚类将具有相似表达模式的基因归类为基因模块。与免疫细胞相关性最强的两个模块被选为关键模块,用于后续分析。
该研究中软阈值功率校准为0.85(图B)。最后,WGCNA分析显示了11个模块的总和(图C)。其中,绿色模块和品红色模块分别与T细胞CD4幼稚亚群和γ δ 亚群有很强的正相关性。由于绿色模块和品红色模块与免疫浸润细胞有重要关联,因此考虑对这两个模块进行进一步研究。
从上述文章中可以看出,WGCNA分析可用于识别高度相关的基因模块,总结模块之间的相互联系以及与外部样本性状的关联,并识别候选生物标记物或治疗靶点。
WGCNA,全称为weighted gene co-expression network analysis,即加权基因共表达网络分析。它是一种分析多个样本基因表达模式的分析方法,可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系,在研究表型性状与基因关联分析等方面的研究中被广泛应用。
使用R包”WGCNA“进行分析,输入数据一般为fpkm表达量数据,推荐5组(或者15个样品)以上的数据,数据的行为基因,列为不同样本的基因表达量。
2.使用goodSamplesGenes检查缺失值和识别离群值(异常值)
如果gsg$allOK的结果为TRUE,证明没有缺失值,可以直接下一步。如果为FALSE,则需要用以下函数进行删除缺失值。
对所有样本进行聚类,观察是否有离群值或异常值,如果有离群值则要删去离群的样本。
3. 读入样本信息并进行筛选,得到表型数据与表达量数据二者共有的样本数据,并重新构建聚类树。
颜色越深,代表这个表型数据与这个样本的基因表达量关系越密切。将此步骤的数据进行保存,命名为file1。
4.对匹配后的样本基因表达量数据和表型数据进行分析,选择合适的软阈值构建网络,并绘制层次聚类树。
5. 选择合适的软阈值构建自动化网络和检测模块,使用sft$powerEstimate查看推荐的软阈值
6.为了更清晰地反映出样本基因的聚类关系,我们将这些基因划分成了若干个模块,每个模块至少存在30个基因,每一个颜色代表一个模块,将划分后的模块和样本基因的层次聚类树一起显示,如下图所示:
保存模块信息:file2
7.载入file1和file2,将性状信息和模块信息相关联,并绘制模块与性状之间的相关性热图。
图中红色为正相关,蓝色为负相关,颜色越深则相关性越强
8.加权网络可视化
可视化加权网络的方法之一是制作热图。热图的每行每列代表一个基因,浅色代表低邻接;深色代表高邻接,基因之间的邻接程度低意味着基因之间的度量值较小,即他们之间之间的相似性较低,这可能表示它们在表达模式、功能或调控方面存在较大的差异。相反,邻接程度高表示基因之间的度量值较大,即它们之间的相似性较高。这可能表示它们在表达模式、功能或调控方面存在相似性。由于样本的基因数量较多,我们从中随机选取了400个基因进行绘图,图片如下所示:
9.此外,可以使用分析结果针对特定模块绘制相关性网络图,还可以将数据导入到相关软件中(如:Cytoscape)进行相关性网络的可视化。
参考文献:
- Xu M, Zhou H, et al. Identification and validation of immune and oxidative stress-related diagnostic markers for diabetic nephropathy by WGCNA and machine learning. Front Immunol. 2023 Feb 22;14:1084531.
- Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 2008 Dec 29;9:559.