生物信息学文章中常见的图应该怎么看?

目录

火山图

热图

箱线图

森林图

LASSO回归可视化图(套索图)

交叉验证图

PCA图

ROC曲线图


这篇文章只介绍这些图应该怎么解读,具体怎么绘制,需要什么参数,怎么处理数据,会在下一篇文章里面给出

火山图

火山图横轴表示与对照组的差异倍数,纵轴表示表达水平。整个图由两条竖着的虚线和一条横着的虚线分割成六个部分,横着的虚线表示显著性水平线,在显著性水平线上面的是表达显著,下面是表达不显著。竖着的两条虚线表示差异倍数线。在差异倍数线区域的左侧表示表达量下降,右边表示表达量上升。在看火山图的时候一般看的是左上区域和右上区域。他们分别是表达量显著下降和表达量显著上升。

热图

这是一个热图,用颜色的深浅来表示基因表达量的差异

横轴代表样本,本例中分为了两组,一组是Healthy,一组是DCM

纵轴代表基因

横轴纵轴交汇处代表的就是特定基因在特定样本中的表达

可以看到上面和左面还有一些折线相互作用交错聚在一起,聚在一起的列可能表示有相似表达模式的基因,而聚在一起的行可能表示表达模式相似的样本或条件

箱线图

普通箱线图的基本组成

  • 箱体:箱体的上下边界分别是数据的上四分位数(Q3)和下四分位数(Q1),因此箱体包含了数据集中间的50%的数据点。箱体的长度(即IQR,四分位间距)可以用来衡量数据的散布程度。
  • 中位线:箱体内部的一条线,表示数据的中位数(Q2)。
  • 触须(须线):从箱体出发的两条线,延伸至数据的最大值和最小值,但不包括异常值。它们代表数据的正常范围。触须的计算方式有多种,但常见的一种是从Q1和Q3分别向外延伸1.5倍IQR(四分位间距)。
  • 异常值:通常用小圆圈表示,异常值是 those 数据点,它们的值超出了触须的范围。这些点被认为是异常的或“离群”的,需要特别注意。

分组箱线图的基本组成

分组箱线图保持了箱线图的所有基本元素,包括箱体、中位线、触须和异常值,但它在横轴上为每个组或类别提供了一个单独的箱线图。这些箱线图并排排列,使得不同组之间的比较变得直接而明显。

这是一个分组箱线图

森林图

1:表示研究对象,可能是某些差异表达的基因名等等

2:是一些平行于x轴的线段,线段长短对应百分之九十五置信区间,线段左右两端的两个数值分别对应百分之九十五置信区间的两个端点值,线段越长表示95%置信区间越长,因此越不精准。

3:无效线,通常是x=0或x=1,如果2中的线段与无效线相交,则代表2中的线段没有统计学意义

5:OR叫比值比,计算方式位患病组中暴露的与不暴露的比值除上对照组中暴露的与不暴露的比值,也就是两个比值的比,因此也叫比值比

LASSO回归可视化图(套索图)

一般我们看到的套索图都是往右边收敛的,那些图的横坐标都是负的,而这个图的横坐标是正的,因此与那些图正好反着。LASSO回归是通过在多元线性回归模型中添加了一个惩罚系数,来达到简化模型的效果,图中每一条线都代表一个影响因素比如基因,让上来有非常多条线,但是随着惩罚系数的增大,他们的影响力不断减小,甚至有的已经到达了0,而随着惩罚系数不断增大,这些线最终都会收敛于0,我们以某一个惩罚系数的值位基准,剔除到达这个基准之前的那些基因,就能够简化模型了。

那么这个所谓的基准应该怎么选才合适呢?这就需要用到下面这张图了

交叉验证图

交叉验证图上面都会有两条虚线,分别是让纵坐标最小的位置和往右一个误差的位置,通常会使用均方误差作为纵坐标。

在文章中套索图和交叉验证图都是一起出现的。

PCA图

PCA:主成分分析

先来介绍一下PCA在做什么,举个极端的例子,在一个二维坐标系中有一些点,他们排成了一条直线,比如他们都是直线y=kx+b上面的点,如果要描述这些点的位置,就需要知道他们的横坐标和纵坐标,也就是需要两个维度的信息,但是既然他们都已经排成一条线了,我们如果能够旋转坐标系让他们都落在某一条坐标轴上,那么再次描述这些点的位置不就只需要一维的信息就足够了吗?这就达到了一个降维的效果。实际上PCA在做的事情与这个例子类似,是在把一个多维的信息转换成几个综合指标,从而达到降维的效果,这个综合指标是对原始指标数据的线性组合,这个综合指标被称为主成分,比如PC1,PC2等

而PCA图就是对我们降维的结果进行展示,下面是一个PCA图

横坐标和纵坐标分别表示PC1和PC2的方差在这一组指标中的总方差中所占的比例,如果在PCA图中两个样本聚集在一起,就说明他们的差异性比较小,如果两个样本离着比较远,则说明他们的差异较大。

ROC曲线图

ROC曲线在生信中主要用于评估模型的性能,可以看到ROC曲线中有一条42度的直线,这条直线与ROC曲线所围成的面积越大,表示模型性能越好。

在 ROC 曲线上有几个重要的参数需要解读:

  1. 真阳性率: 也称为灵敏度,表示本身患病,同时被模型预测为患病的比例,计算公式为(模型正确预测的患病人数)/(实际患病的总人数)
  2. 假阳性率:实际为阴性,但是被模型预测为阳性 ,计算公式为(本来没患病但是被模型预测为患病的人数)/(实际患病的人数)
  3. AUC(Area Under the Curve): ROC 曲线下的面积,AUC 值越接近1,表示分类模型的性能越好,AUC 值越大通常意味着模型的准确性越高。

在 ROC 曲线中,我们希望曲线尽量向左上角凸起,即 TPR 高、FPR 低,这表示模型的性能较好。而 ROC 曲线下的面积 AUC 越大,则说明模型性能越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/767695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python之jsonpath的使用

文章目录 介绍安装语法语法规则举例说明 在 python 中使用获取所有结构所有子节点的作者获取所有子孙节点获取所有价格取出第三本书的所有信息取出价格大于70块的所有书本从mongodb 中取数据的示例 介绍 JSONPath能在复杂的JSON数据中 查找和提取所需的信息,它是一…

Java设计模式之单例模式(多种实现方式)

虽然写了很多年代码,但是说真的对设计模式不是很熟练,虽然平时也会用到一些,但是都没有深入研究过,所以趁现在有空练下手 这章主要讲单例模式,也是最简单的一种模式,但是因为spring中bean的广泛应用&#…

YoloV8改进策略:BackBone改进|PKINet

摘要 PKINet是面向遥感旋转框的主干,网络包含了CAA、PKI等模块,给我们改进卷积结构的模型带来了很多启发。本文,使用PKINet替代YoloV8的主干网络,实现涨点。PKINet是我在作者的模型基础上,重新修改了底层的模块,方便大家轻松移植到YoloV8上。 论文:《Poly Kernel Ince…

计算机三级网络技术 选择+大题234笔记

上周停去准备计算机三级的考试啦,在考场上看到题目就知道这次稳了!只有一周的时间,背熟笔记,也能稳稳考过计算机三级网络技术!

鸿蒙开发学习:【华为支付服务客户端案例】

简介 华为应用内支付服务(HUAWEI In-App Purchases)支持3种商品,包括消耗型商品、非消耗型商品和订阅型商品。 消耗商品:仅能使用一次,消耗使用后即刻失效,需再次购买。非消耗商品:一次性购买…

计算机常见的知识点(3)

计算机系统 系统的构成 一个完整的计算机系统是由硬件和软件组成 硬件是由运算器、控制器、存储器、输入设备、输出设备五部分组成 其中:中央处理器(简称CPU)运算器控制器 主机中央处理器主存储器 计算机软件包括计算机本身运行所需要的系统软件和用户完成任务…

Mybatis中显示插入数据成功,但在数据库中却没有显示插入的数据

1、在mybatis-config.xml中查看是否添加了JDBC,并引入了映射文件 2、在测试文件中,结尾是否添加提交事务:sqlSession.commit() 添加了这一步就能够将数据提交到数据库中,最后再关闭事务:sqlSession.close() * 如果运…

JWT原理分析

为什么会有JWT的出现? 首先不得不提到一个知识叫做跨域身份验证,JWT的出现就是为了更好的解决这个问题,但是在没有JWT的时候,我们一般怎么做呢?一般使用Cookie和Session,流程大体如下所示: 用…

手撕算法-买卖股票的最佳时机 II(买卖多次)

描述 分析 使用动态规划。dp[i][0] 代表 第i天没有股票的最大利润dp[i][1] 代表 第i天持有股票的最大利润 状态转移方程为:dp[i][0] max(dp[i-1][0], dp[i-1][1] prices[i]); // 前一天没有股票,和前一天有股票今天卖掉的最大值dp[i][1] max(dp[i-1…

Linux查看磁盘空间

查看磁盘空间 df -h 查看目录所占空间 du -sh [目录] 查看当前目录下, 所有目录所占空间 (一级目录) find . -maxdepth 1 -type d -exec du -sh {} \;-maxdepth 1 查看的目录深度是1级, 2则是2级

FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

摘要 为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 第 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 。 第二阶段 也是一个物体探测器网络,预测聚焦…

【云开发笔记No.6】腾讯CODING平台

腾讯云很酷的一个应用,现在对于研发一体化,全流程管理,各种工具层出不穷。 云时代用云原生,再加上AI,编码方式真是发生了质的变化。 从前,一个人可以写一个很酷的软件,后来,这变得…

<商务世界>《第16课 餐桌礼仪之座次》

1 简要 我国自古以来就很重视座位礼仪,非讲究,分君臣、分宾主、分方位等等而今座位礼仪已经简化为: 以“中”为尊: 中心为尊,突出主位。 以“右”为尊: 从历史上到国际上都是以右为尊。 以“内”为尊&…

故障诊断模型 | 基于图卷积网络的轴承故障诊断

文章目录 文章概述模型描述模型描述参考资料文章概述 故障诊断模型 | 基于图卷积网络的轴承故障诊断 模型描述 针对基于图卷积网络(GCN)的故障诊断方法大多默认节点间的权重相同、导致诊断精度较低与鲁棒性较差的问题,提出了一种基于欧式距离和余弦距离的 GCN 故障诊断方法…

力扣热门算法题 62. 不同路径,66. 加一,67. 二进制求和

62. 不同路径,66. 加一,67. 二进制求和,每题做详细思路梳理,配套Python&Java双语代码, 2024.03.21 可通过leetcode所有测试用例。 目录 62. 不同路径 解题思路 完整代码 Python Java 66. 加一 解题思路 …

29-goto语句

29-1 goto语句介绍 C语言中提供了可以随意滥用的goto语句和标记跳转的标号。 从理论上goto语句是没有必要的,实践中没有goto语句也可以很容易的写出代码。 但是某些场合下goto语句还是用得着的,最常见的用法就是终止程序在某些深度嵌套的结构的处理过程…

第十一届蓝桥杯大赛第二场省赛试题 CC++ 研究生组-回文日期

solution1&#xff08;通过50%&#xff09; #include<stdio.h> void f(int a){int t a;while(a){printf("%d", a % 10);a / 10;}if(t < 10) printf("0"); } int isLeap(int n){if(n % 400 0 || (n % 4 0 && n % 100 ! 0)) return 1;r…

抖音IP属地怎么更改

抖音是一个非常受欢迎的短视频平台&#xff0c;吸引了无数用户在上面分享自己的生活和才艺。然而&#xff0c;随着快手的火爆&#xff0c;一些用户开始担心自己的IP地址会被他人获取&#xff0c;引起个人隐私风险。那么&#xff0c;抖音用户又该如何更改到别的地方呢&#xff1…

父类子类构造方法调用示例

父类写无参构造&#xff0c;子类不写构造&#xff0c;实例化子类&#xff0c;会同时调用父类构造方法 public class Father {private String name;private int age;public Father() {System.out.println("父类无参构造");}} public class Son extends Father {priva…

私密个人相册 Android 藏起来你的照片和视频

珍藏每一刻 软件介绍版本号 1.0.0更新日期 2024-03-20 在数字时代&#xff0c;每个人都是自己故事的摄影师。私密个人相册应用&#xff0c;专为珍视隐私与回忆的你设计。我们提供一个安 全的空间&#xff0c;让你的每一张照片和每一个视频都得到妥善保护&#xff0c;同时也能…