资料总结分享:瀑布图,GESA,生存曲线

目录

瀑布图

GESA

生存曲线


瀑布图

肿瘤的瀑布图是一种常用的数据可视化方式,用于展示个体患者或研究样本的肿瘤基因组学数据,通常包括基因突变、基因拷贝数变异、染色体重排等信息。

颜色编码:

柱状图通常会使用颜色编码来表示不同类型的突变或变异,如蓝色代表错义突变、红色代表缺失等。

不同颜色的柱状图有助于快速识别不同类型的基因变异。

横向分组:

瀑布图可能会将样本分组,例如按照治疗方案或疾病亚型进行分组,每个分组之间有明显的分隔线。

注释信息:

瀑布图通常会包含注释信息,例如具体的突变类型、基因名称等,以帮助解读图表。

中间主体灰色的一部分,横坐标是样本,纵坐标是基因。

有颜色的,说明该基因在该样本中发生了突变,根据后面条形图可以对应知道突变的频率。

最上面的柱状图反应的是该样本这些基因总的突变情况。

不同的颜色,反映的是样本的具体的突变情况,是移码突变,还是错义突变等等。

通过瀑布图,我们可以快速的找出所有样本中突变个数最多的基因(右侧柱状图);还可以快速确定某个样本中哪类突变占比最大(上侧柱状图)。



GESA

GSEA(Gene Set Enrichment Analysis,基因集富集分析)是一种常用的基因表达数据分析方法,用于识别在两个或多个生物条件之间差异表达的基因集合(通常是基因通路、生物过程或功能模块等)。

GSEA的基本原理:

基因集合定义:

首先,将基因按照其功能或生物学特性分成不同的基因集合,例如通路数据库(如KEGG、Reactome)、基因本体(Gene Ontology)或其他功能模块。

基因集富集分析:

对于每个基因集,根据其成员基因在样本中的表达情况,计算一个富集分数(Enrichment Score,ES),反映该基因集在样本中的富集程度。

富集分数的计算基于基因的秩次信息,而不是直接基于其表达水平,这使得GSEA能够有效地处理小样本和低表达基因。

统计显著性评估:

通过对富集分数进行统计显著性评估,确定哪些基因集在不同的生物条件之间显著富集或耗竭。

通常采用基于重抽样的方法(如基因集置换或Permutation Test)来估计每个基因集的显著性水平。

结果解释:

根据显著性评估结果,识别具有生物学意义的富集基因集,这些基因集可能在不同的生物条件下发挥重要作用。

GSEA结果通常以富集分数曲线(Enrichment Plot)和基因集富集表(Enrichment Table)的形式呈现,方便用户进行解读和可视化。

为何要进行GSEA分析?

揭示基因集的生物学功能:

GSEA能够鉴定整个基因集在不同生物条件下的表达变化,从而帮助理解基因集在生物学过程中的功能和调控。

增强基因表达数据的解读力:

相比单个基因的差异分析,GSEA能够对整个基因集进行综合分析,提高了基因表达数据的解读力和信息提取能力。

发现新的生物学洞察:

通过GSEA分析,可以发现在单个基因水平上不易察觉的生物学过程或通路的变化,为新的生物学洞察提供线索。

指导进一步实验设计和研究方向:

GSEA结果可以为后续的实验设计和生物学研究方向提供重要参考,指导下一步的实验验证和机制研究。

GSEA的输入是一个基因表达量矩阵,其中的样本分成了A和B两组,首先对所有基因进行排序,简单理解就是根据处理后的差异倍数值进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。排序之后的基因列表其顶部可看做是上调的差异基因,其底部是下调的差异基因。

GSEA分析的是一个基因集下的所有基因是富集在这个排序列表的顶部还是底部,如果在顶部富集,可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。

GSEA分析有三个特点:

1. 分析的基因集合而不是单个基因;

2. 将基因与预定义的基因集进行比较;

3. 富集分析;

假设1个比较组”MUT vs WT”的差异gene集(MUT为实验组,WT为对照组),进行GSEA富集分析,结果如下图:

GS:基因集(通路)的名字。

SIZE:代表该基因集(通路)下的基因总数。

ES:代表Enrichment score,NES代表归一化后的Enrichment score。

NOM p-val:代表p值,表征富集结果的可信度。

q-val:代表q值, 是多重假设检验矫正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 对结果进行过滤。

对于某个基因集下(通路里)的每个基因给出了详细的统计信息,如下图

RANK IN GENE LIST:代表该基因在排序中的位置。

RANK METRIC SCORE:代表该基因排序量的值,即:处理后的foldchange值。

RUNNIG ES:代表累计的Enrichment score。

CORE ENRICHMENT:代表是否属于核心基因,即对该基因集的Enerchment score做出了主要贡献的基因。

上图表格中的数据对应下面这张图

上图分为3部分,如下:

第一部分:最顶部的绿色折线为基因Enrichment Score的折线图。纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。横轴代表此基因集下的每个基因,对应第二部分类似条形码的竖线。

第二部分:类似条形码的部分,为Hits,每条竖线对应该基因集下的一个基因。

第三部分:为所有基因的rank值分布图,纵坐标为ranked list metric,即该基因排序量的值,可理解为”公式化处理后的foldchange值”。

我们假设是针对比较组”MUT vs WT”的差异gene集进行分析,MUT为实验组,WT为对照组,差异gene的差异倍数计算公式为:

通常统计时,对foldchange取log值(取对数)。

如果log2(foldchange)>0,表明实验组表达量高于对照组,即,实验组相对于对照组上调。

如果log2(foldchange)<0,表明实验组相对于对照组下调。

上图”Enrichment Score的折线图”对应的纵轴值全部大于0,显示这个基因集是在MUT组高表达的(即,此基因集(通路)在MUT组上调)

下图是一个在WT组中高表达的示例。

下图中其Enrichment score值全部为负数,其峰值右侧的基因为该基因集下的核心基因。

对于一个基因集而言,定义其中对Enrichment score贡献最大的基因为核心基因,也称之为leading edge subset, 参考下图

对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。

GSEA富集过程包括三步骤:

1. 计算富集分数(Enrichment Score);

2. 估计富集分数的显著性水平;

3. 矫正多重假设检验;



生存曲线

生存曲线(Survival Curve)是描述在一段时间内生存(或存活)率的曲线。在医学、生物学和社会科学等领域,生存曲线通常用于描述个体或群体在一定时间内存活的概率或比例。

生存曲线的特点:

横轴表示时间: 生存曲线的横轴通常表示经过的时间,可以是天、月、年等单位。

纵轴表示生存率: 纵轴表示在给定时间段内存活的个体或群体的比例或概率,通常以百分比或累积概率的形式呈现。

不同曲线比较: 当有多个不同的组群或处理条件时,可以绘制多条生存曲线进行比较。这些曲线可能代表不同治疗组、不同基因型、不同环境条件等。

生存函数: 生存曲线反映了生存函数(Survival Function)的变化。生存函数描述了在给定时间 t 内个体存活下来的概率。

生存曲线的类型:

Kaplan-Meier 曲线: Kaplan-Meier 生存曲线是最常见的生存曲线,用于描述时间至事件(如死亡、疾病复发等)发生的概率。

累积发病曲线: 在流行病学研究中,累积发病曲线用于描述在一定时间内发生疾病的概率。

生存率曲线: 用于描述生物或实验室实验中的生存率情况,例如药物毒性实验中动物的生存率。

应用领域:

医学研究: 生存曲线常用于临床试验和流行病学研究中,评估治疗效果、预测疾病发生率、分析生存率等。

生物学研究: 生存曲线也可用于研究物种的寿命、生态系统的稳定性等生物学问题。

社会科学: 在社会学和经济学中,生存曲线可用于研究人口生存率、就业持续时间、市场竞争力等方面。

在癌症领域,生存曲线是评估患者生存状况和预后的重要工具。通过观察生存曲线,医生和研究人员可以了解患者在一段时间内存活的概率,并对治疗效果、疾病进展和生存期进行评估。下面详细解释如何解读癌症领域的生存曲线:

1. Kaplan-Meier 曲线:

Kaplan-Meier 曲线是最常用于癌症生存分析的方法之一。它基于患者的随访数据,根据时间和事件(通常是死亡或疾病复发)的发生情况绘制出生存曲线。

横轴表示时间: 通常是以月或年为单位的时间轴,表示自诊断或治疗开始以来的时间。

纵轴表示生存率: 生存率表示在给定时间点存活的患者比例。纵轴从1开始,表示所有患者存活,随着时间的推移,生存率逐渐下降。

2. 生存曲线的形状:

降低: 曲线向下倾斜代表生存率随时间降低,即患者的存活时间在延长。这通常是理想的情况,表示治疗效果良好或疾病进展缓慢。

水平或平缓下降: 曲线趋于平缓可能表示患者的生存率没有明显的改善或恶化,可能暗示治疗效果有限或疾病具有较高的复发率。

急剧下降: 突然下降的生存曲线可能暗示疾病具有快速进展的特点,或者是由于某些不良因素(如治疗相关的并发症)导致了生存率的骤降。

3. 曲线的比较:

不同治疗组: 可以绘制多条生存曲线来比较不同治疗方案或药物的效果。一般来说,生存曲线越向上越好,代表了治疗效果越好。

不同亚型或阶段: 癌症可以根据不同的亚型(分子亚型)或分期(病理分期)来进行生存曲线的比较,以了解不同亚型或阶段对患者预后的影响。

4. 统计分析:

P值和置信区间: Kaplan-Meier 曲线通常伴随着统计学分析,包括计算P值和置信区间。P值可以用来评估不同生存曲线之间的差异是否显著,置信区间表示估计的准确性。

Log-Rank检验: 用于比较两组或多组生存曲线是否有统计学上的显著差异,通常用于比较不同治疗组或不同疾病亚型之间的生存情况。

5. 实际应用:

生存曲线的解读应结合具体的临床背景和病例特点,包括患者的年龄、性别、病理类型、分期、治疗方案等因素,以更准确地评估患者的预后和制定个体化的治疗方案。

 阴性预测值(Negative Predictive Value,NPV),NPV = TN / (TN + FN)(越大越好)

阳性预测值(Positive Predictive Value,PPV),PPV = TP / (TP + FP)(越大越好)

精确度(Accuracy):表示正确预测的总样本数与总样本数之间的比例。(TP + TN) / (TP + TN + FP + FN)(越大越好)

真正例率(True Positive Rate,也称为灵敏度、召回率):表示在所有实际正例中,有多少被正确预测为正例。真正例率(TPR)= TP / (TP + FN).(越大越好)

(敏感性) 假正例率(False Positive Rate):表示在所有实际负例中,有多少被错误预测为正例。

假正例率(FPR)= FP / (FP + TN)(越小越好)

ROC曲线(Receiver Operating Characteristic curve)和AUC(Area Under the ROC Curve):用于绘制模型在不同阈值下真正例率和假正例率之间的关系,并计算曲线下的面积,AUC值越大表示模型性能越好。

特异性(Specificity),也被称为真负例率(True Negative Rate,TNR),(Specificity)= TN / (TN + FP)

约登指数(Youden Index):也称正确指数,其反映了区分真正的患者与非患者的总能力。Youden index = Sensitivity + Specificity − 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/11059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis的数据淘汰策略——Java全栈知识(19)

Redis的数据淘汰策略 什么是数据淘汰策略 数据过期策略是 redis 中设置了 TTL 的数据过期的时候 Redis 的处理策略。数据淘汰策略是 Redis 内存不够的时候&#xff0c; 数据的淘汰策略&#xff1a;当 Redis 中的内存不够用时&#xff0c;此时在向 Redis 中添加新的 key, 那么…

IEEE 802.11标准

在IEEE 802.11标准中使用了扩频通信技术&#xff0c;主要作用是使得抗干扰性更强。 IEEE 802.11在MAC层采用了CSMA/CA协议。 IEEE 802.1x是一种基于端口认证协议。

开源web在线数据库设计软件 —— 筑梦之路

GitHub - drawdb-io/drawdb: Free, simple, and intuitive online database design tool and SQL generator. 简介 DrawDB是一款多功能且用户友好的在线工具&#xff0c;允许用户轻松设计数据库实体关系。通过简单直观的界面&#xff0c;DrawDB使用户能够创建图表、导出SQL脚本…

kettle经验篇:MongoDB-delete插件问题

目录 项目场景 问题分析 解决方案 MongoDB Delete插件使用总结 项目场景 项目使用的ODS层数据库是MongoDB&#xff1b;在数据中心从DB层向ODS层同步数据过程中&#xff0c;发现有张ODS表在同步过程中&#xff0c;数据突然发生锐减&#xff0c;甚至于该ODS表数据清0。 同步…

算法设计与分析 例题 绘制Huffman树、循环赛、分治、最短路与动态规划

1.考虑用哈夫曼算法来找字符a,b,c,d,e,f 的最优编码。这些字符出现在文件中 的频数之比为 20:10:6:4:44:16。要求&#xff1a; &#xff08;1&#xff09;&#xff08;4 分&#xff09;简述使用哈夫曼算法构造最优编码的基本步骤&#xff1b; &#xff08;2&#xff09;&…

Oracle 流stream数据的复制

Oracle 流stream数据的复制 --实验的目的是捕获scott.emp1表的变化&#xff0c;将变化应用到远程数据库scott.emp1表中。 --设置初始化参数 AQ_TM_PROCESSES1 COMPATIBLE9.2.0 LOG_PARALLELISM1 GLOBAL_NAMEStrue JOB_QUEUE_PROCESSES2 --查看数据库的名称&#xff0c;我的为o…

2024中国(重庆)机器人展览会8月举办

2024中国(重庆)机器人展览会8月举办 邀请函 主办单位&#xff1a; 中国航空学会 重庆市南岸区人民政府 招商执行单位&#xff1a; 重庆港华展览有限公司 2024中国重庆机器人展会将汇聚机器人全产业链知名企业&#xff0c;世界科技领先的生产制造企业与来自多个国家和地区…

蓝桥杯-网络安全比赛(6) 模拟实验 Metasploit 控制并获取Windows 登录HASH、LM Hash和NTLM Hash密文解析

窃取WINDOWS账号密码 系统环境&#xff1a;主机&#xff08;Windows系统 IP&#xff1a;192.168.126.129)&#xff0c;虚拟机&#xff08;KALI系统 IP&#xff1a;192.168.126.3&#xff09;&#xff0c;两者需要能通过本地网络互通互连。 攻击工具&#xff1a;Metasploit是一…

改变浏览器大小,图片(img)内容居中显示img标签,不是背景图

改变浏览器大小,图片&#xff08;img&#xff09;内容居中显示&#xff0c;img标签&#xff0c;不是背景图 效果直接上图&#xff1a; 上代码&#xff1a; <!DOCTYPE html> <html> <head><title>测试图片居中显示&#xff0c;高度不变只变宽度<…

Electron学习笔记(五)

文章目录 相关笔记笔记说明 七、系统1、系统对话框2、自定义窗口菜单3、系统右键菜单4、快捷键(1)、监听网页按键事件 &#xff08;窗口需处于激活状态&#xff09;(2)、监听全局按键事件 &#xff08;窗口无需处于激活状态&#xff09;(3)、补充&#xff1a;自定义窗口菜单快捷…

异常处理/ROS2异常处理模块源码解读与浅析

文章目录 概述ros2/rcutils/src/error_handling模块自身异常处理错误状态结构与存储本模块初始化错误状态的设置错误状态的获取错误状态的清理不丢失旧错误状态把手段还原为目的其他 概述 本文从如下几个方面对 ROS2.0 中 rcutils 库 error_handling 错误处理模块的源码进行解…

花了24小时做的采购、库存、进销存excel模板,真心好用,免费分享

花了24小时做的采购、库存、进销存excel模板&#xff0c;真心好用 在企业的日常运营中&#xff0c;进销存管理是一项至关重要的任务。它不仅涉及到商品的采购、销售和库存管理&#xff0c;还直接影响到企业的财务状况和市场竞争力。为了提高管理效率&#xff0c;许多企业选择使…

Redis 的 SDS 和 C 中字符串相比有什么优势?

C 语言使用了一个长度为 N1 的字符数组来表示长度为 N 的字符串&#xff0c;并且字符数组最后一个元素总是 \0&#xff0c;这种简单的字符串表示方式 不符合 Redis 对字符串在安全性、效率以及功能方面的要求。 C语言的字符串可能有什么问题&#xff1f; 这样简单的数据结构可…

别人家的UI表单为什么这么漂亮?而你却千篇一律。

设计漂亮的移动UI页面表单页需要考虑以下几个方面&#xff1a; 布局和结构设计 合适的布局和结构&#xff0c;使表单页面看起来整洁、清晰&#xff0c;并且易于使用。可以使用网格系统或者栅格布局来对表单进行划分&#xff0c;使不同的表单元素有明确的位置和排列。 色彩和配…

GO+树莓派+E53_IA1智慧农业模块

简介 之前手头上有小熊派的开发板&#xff0c; 有一个E53_IA1模块&#xff0c; 刚好用到树莓派上&#xff0c; 使用GO进行控制&#xff0c;实现智慧农业模块功能。 模块介绍 模块电路介绍 按硬件分成五块&#xff0c; 其中四块在本次用上了&#xff0c; 分别是 1. 补光模块&…

可视化大屏:城市治理方向,三维地图那是相当震撼呀。

随着城市化进程的加快&#xff0c;城市治理变得越来越复杂&#xff0c;需要大量的数据和信息来支持决策和管理。在这个背景下&#xff0c;可视化大屏作为一种新兴的信息展示工具&#xff0c;正逐渐在城市治理中发挥着重要作用。 首先&#xff0c;可视化大屏能够将庞大的数据和信…

kettle从入门到精通 第五十九课 ETL之kettle 邮件发送多个附件,使用正则轻松解决

想真正学习或者提升自己的ETL领域知识的朋友欢迎进群&#xff0c;一起学习&#xff0c;共同进步。若二维码失效&#xff0c;公众号后台加我微信入群&#xff0c;备注kettle。 问题场景&#xff1a; 一个朋友说他用kettle将生成好的多个文件&#xff08;a.xls和b.xls&#xff0…

【LeetCode算法】1768. 交替合并字符串

提示&#xff1a;此文章仅作为本人记录日常学习使用&#xff0c;若有存在错误或者不严谨得地方欢迎指正。 文章目录 一、题目二、思路三、解决方案 一、题目 给你两个字符串 word1 和 word2 。请你从 word1 开始&#xff0c;通过交替添加字母来合并字符串。如果一个字符串比另…

图论专题训练

leecode 547 并查集 class Solution { public:int findCircleNum(vector<vector<int>>& isConnected) {ini();int len isConnected.size();for(int i0;i<len;i){for(int j0;j<len;j)if(isConnected[i][j]){unio(i,j);}}int ans 0;for(int i0;i<len;…

爱分析基于杭州云器Lakehouse实现成本最优的一体化管理,新一代数据平台的建设方式

导读 1.当前&#xff0c;企业在大数据和数据中台建设上取得成果&#xff0c;但数据开发管理仍具挑战性&#xff08;成本、效率、复杂度&#xff09;。 2.随数据平台领域成熟&#xff0c;厂商应结合自身需求&#xff0c;重新思考“基于开源自建数据平台”的重资产模式与“购买…