基因表达分析聚类分析

基因表达分析聚类&分析

1. Introduction to gene expression analysis

  • Technology: microarrays vs. RNAseq. Resulting data matrices
  • Supervised (Clustering) vs. unsupervised (classification) learning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 微阵列技术:

    • 制备DNA探针阵列并进行互补性杂交。

    • 变化:

      • 每个基因使用一个长探针。
      • 每个基因使用许多短探针。
      • 在基因组中制备瓦片状k-mer阵列。
    • 优点:

      • 可以专注于小区域的研究,即使每个细胞的分子数目很少也可以进行。
  • RNA测序(RNA-Seq)技术:

    • 从mRNA中测序短片段,并将其映射到基因组上。

    • 变化:

      • 计数映射到每个已知基因的读取数。
      • 在每次实验中重建转录组(reconstruct transcriptome de novo)。
    • 优点:

      • 提供数字化的测量,每次实验都可以进行新的转录组重建(de novo transcriptome reconstruction)。

微阵列技术:是一种生物技术,它允许研究者在单一实验中测量数千甚至数万基因的表达。这是通过创建包含许多特定DNA探针的阵列来实现的。这些探针可以设计为特异性地结合到特定的mRNA目标,从而允许研究者定量地测量每个基因的mRNA表达。微阵列技术可以提供全基因组的表达画像,帮助研究者了解不同条件下基因表达的变化。

RNA测序(RNA-Seq)技术:是一种基因表达剖析的先进技术。它使用下一代测序(NGS)技术,**从mRNA生成一系列短片段或“读取”,然后这些读取可以映射回参考基因组,从而确定它们来自哪个基因。**RNA-Seq技术比微阵列更精确,能检测更广泛的基因表达水平,也能发现新的转录和剪接事件。

值得注意的是,这两种技术各有优缺点。例如,微阵列技术成本较低,但其检测范围有限,只能测量已知的基因。而RNA-Seq虽然能提供更详细的信息,但成本更高,数据处理也更复杂。

DNA探针的制备一般涉及以下步骤:

  1. 确定目标:选择需要检测或分析的特定DNA序列作为目标。
  2. 合成探针:通过生物化学方法,合成一段与目标序列完全互补的DNA片段,即DNA探针。
  3. 标记:将探针与放射性、荧光或酶等标记物结合,以便在后续实验中检测和跟踪。
  4. 杂交:将标记的探针与待测样品进行杂交,探针会寻找并结合到与其序列完全匹配的DNA或RNA片段。
  5. 检测:通过放射性、荧光或酶等方式检测探针,从而确定目标序列是否存在,以及存在的数量。

基因测序之后就可以得到基因表达阵列,并可以对其进行分析
每一行代表不同的基因,每一列对应着不同的实验条件(如不同的组织细胞/不同疾病/不同人群/以及等等其他)

  • 对于每行数据,你可以看到同一个基因在不同实验下的差异表达
  • 对于每列数据,你可以看到不同试验下,整条基因组的差异

  • 对于基因测序数据,存在着很多潜在的任务,最典型的就是 聚类和分类 两种问题
    • Clustering【无监督学习】: 具有相似功能的基因表达往往会富集在一处,因此也揭示了潜在的结构
      • 注释:特定基因功能
      • 不提前注释
    • Classification【监督学习】: 从数据中提取特征,并且强制机器去学到这些不同类别之间数据特征的差异
      • 提前有注释,分类好的集群

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评估聚类性能

聚类是一种无监督学习方法,常用于探索数据集中的自然分组或模式。在生物信息学中,聚类常常被用于基因表达数据分析,以发现具有相似表达模式的基因群

这里提到了两种常见的评估方法:鲁棒性和类别富集。

  1. 鲁棒性: 这种方法主要用于评估聚类的稳定性。这通常涉及到从数据集中随机选择样本进行聚类,然后重复这个过程。如果某个聚类在所有的子样本中都出现,那么我们就可以认为这个聚类是鲁棒的。如果聚类结果在多次随机抽样后变化不大,那么我们就可以认为这个聚类方法是稳定的。

  2. 类别富集:这种方法主要用于寻找在特定聚类中“过度表达”的基因类别。这是一种后验验证方法,可以用于评估聚类结果的生物学意义。例如,如果一个聚类包含了许多在某种生物过程中起作用的基因,那么我们就可以认为这个聚类可能与这个生物过程有关。这种方法也常常用于基因表达模式的发现。

  • 使用超几何分布来评估聚类结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

超几何分布是一种描述从有限的两类对象(例如正例和负例)的总体中无放回地抽取的概率模型。在生物信息学中,这种方法经常用于基因富集分析,以评估某个基因集合(例如一个聚类)中特定基因类别的富集情况是否超过了随机期望。

  • 为了具体说明,我们设

    • N为总体的大小
    • p为总体中标记为"+"的元素数量
    • N-p为标记为"-"的元素数量。
    • 我们随机抽取k个元素,其中m个标记为"+“,k-m个标记为”-"。
  • 超几何分布可以帮助我们计算出,在这种情况下,随机抽取k个元素中至少有r个"+"的概率。这个概率可以用来评估我们观察到的聚类中特定类别的基因数量是否比随机期望的要多。

  • "P-value of uniformity"和"P-value of single cluster containing k elements of which at least r are +"就是根据超几何分布计算出来的p值。

    • 如果p值很小(例如小于0.05),那么我们就可以认为观察到的富集情况是非常罕见的。
    • 因此可能不是随机产生的,而是有一些生物学的原因。
    • 这样就可以帮助我们找出聚类结果中生物学上有意义的模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过使用人类基因在成纤维细胞中的表达时间序列进行聚类分析。这个聚类分析将8600个人类基因划分到了五个主要的类别中。

A) 胆固醇生物合成:这个类别的基因可能主要涉及在细胞中生产胆固醇的过程。

B) 细胞周期:这个类别的基因可能主要参与控制细胞的生命周期,包括细胞的生长、DNA复制、分裂等过程。

C) 即时早期反应:这个类别的基因可能主要涉及细胞对各种刺激的快速反应,例如应对环境变化、压力或损伤。

D) 信号传导和血管生成:这个类别的基因可能主要参与细胞间的通信,以及血管的形成和发展。

E) 伤口愈合:这个类别的基因可能主要参与伤口修复和再生的过程。

每个类别都是由在相似条件下表达的基因组成的。这意味着这些基因可能在相同的生物过程中起作用,或者受到相同的调控机制影响。这种类型的分析对于理解基因的功能,以及它们如何在复杂的生物过程中协同作用非常有帮助。

总结

  • 两种分类方法

在分类问题中,通常有两种主要的方法:生成方法(Generative)和判别方法(Discriminative)。

  • 生成方法(Generative):

    • 生成方法试图学习数据的联合概率分布P(X, Y),然后使用贝叶斯定理来推导出条件概率分布P(Y|X)。生成模型能够产生新的数据样本,这是它们名字的由来。代表性的算法有贝叶斯分类器(例如朴素贝叶斯)和隐藏马尔可夫模型(HMM)等。
    • 生成模型将分类问题描述为概率问题,它在不同类别中建模特征分布,并使用概率计算进行决策。在基因发现(Gene Finding)问题中,隐藏马尔可夫模型就是一种常用的生成模型。
  • 判别方法(Discriminative)

    • 与生成方法不同,判别方法直接学习决策边界或者条件概率分布P(Y|X)。判别模型并不对数据的分布做假设,它们直接学习输入和输出之间的映射关系。代表性的算法有支持向量机(SVM)、决策树、随机森林、逻辑回归、深度学习等。
    • 判别模型不对底层分布进行建模,而是使用距离边界的距离来进行决策。在基因发现问题中,条件随机场(CRF)就是一种常用的判别模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/113390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习-第4篇】使用MATLAB快速实现CNN多变量回归预测

上一篇我们讲了使用CNN进行分类的MATLAB代码。 这一篇我们讲CNN的多变量回归预测。 是的,同样是傻瓜式的快速实现。 一、什么是多变量回归预测 多变量回归预测则是指同时考虑多个输入特征进行回归预测。举几个例子: 房价预测:给定一组房…

索引背后的数据结构——B+树

为什么要使用B树? 可以进行数据查询的数据结构有二叉搜索树、哈希表等。对于前者来说,树的高度越高,进行查询比较的时候访问磁盘的次数就越多。而后者只有在数据等于key值的时候才能进行查询,不能进行模糊匹配。所以出现了B树来解…

【Excel】WPS单元格快速转换表格字母大小写

使用WPS Office打开表格,选择需要处理的单元格或单元格区域。 依次点击「会员专享」选项卡 —>「智能工具箱」。 再点击「格式」—>「大小写」,选择一种大小写转换方式即可。

ESP32网络开发实例-连接信号最强的热点

连接信号最强的热点 文章目录 连接信号最强的热点1、软件准备2、硬件准备3、代码实现在本文中,将向您展示如何使用 ESP32 WiFiMulti 库。 这使我们能够使用多个网络,ESP32 可以连接到列表中可用的最强 WiFi 网络。 每当它失去连接时,它都会重新连接到列表中下一个最强的网络…

SpringBoot项目创建失败或无法启动,启动报错时的常见问题及解决方案

1、无法启动,没有启动的三角按钮 原因:idea没有将其识别为一个maven项目 解决方案:告诉idea,这是一个maven项目 1.1、如果右侧有Maven项目,刷新一下 1.2、左侧项目鼠标右键,添加Maven框架支持 若没有选择m…

FGSM快速梯度符号法非定向攻击代码(PyTorch)

数据集:手写字体识别MNIST 模型:LeNet import torch.nn as nn import torch.nn.functional as F import torch from torchvision import datasets, transforms import matplotlib.pyplot as plt use_cuda True device torch.device("cuda"…

密码登录虽安全,但有时很麻烦!如何禁用或删除Windows 11中的密码登录

如果你想在Windows 11上自动登录,在本指南中,我们将向你展示如何删除你的帐户密码。 在Windows 11上,你可以至少通过三种方式从帐户中删除登录密码。在你的帐户上使用密码有助于保护你的计算机和文件免受来自internet或本地的未经授权的访问。然而,在某些情况下,密码可能…

【【萌新的FPGA学习之快速回顾 水 水 】】

萌新的FPGA学习之快速回顾 水 水 上一条FPGA的更新在9 25 并且2个礼拜没写 verilog 了 正好 刷新一下记忆 FPGA CPU DSP 的对比 在数字电路发展多年以来,出现了 CPU、DSP 和 FPGA 三种经典器件,每个都是具有划时代意义的器件。CPU、DSP 和 FPGA 都有各…

SQL INSERT INTO 语句(在表中插入)

SQL INSERT INTO 语句 INSERT INTO 语句用于向表中插入新的数据行。 SQL INSERT INTO 语法 INSERT INTO 语句可以用两种形式编写。  第一个表单没有指定要插入数据的列的名称,只提供要插入的值,即可添加一行新的数据: INSERT INTO table_n…

【Bug】8086汇编学习

文章目录 随笔Bug1、masm编译报错:Illegal use of register2、debug中使用段前缀3、[idata]在编译器中的处理4、push立即数报错5、报错:improper operand type6、程序莫名跳转到未知位置 (doing)7、DOSBox失去响应8、程序运行显示乱码9、程序运行导致DOS…

Redis 命令—— 超详细操作演示!!!

内存数据库 Redis7 三、Redis 命令3.1 Redis 基本命令3.2 Key 操作命令3.3 String 型 Value 操作命令3.4 Hash 型 Value 操作命令3.5 List 型 Value 操作命令3.6 Set 型 Value 操作命令3.7 有序Set 型 Value 操作命令3.8 benchmark 测试工具3.9 简单动态字符串SDS3.10 集合的底…

Layui 主窗口调用 iframe 弹出框模块,获取控件的相应值

var iframeWindow window[layui-layer-iframe index]; iframeWindow.layui.tree............(这里就可以操作tree里面的内容了)。var chrild layero.find(iframe).contents(); chrild.layui.tree (这样是调用不到的)。var child layer.getChildFrame(); child.layui.tree(这…

IOS(刘海/留海/流海)屏幕判断

IPhone 8 没刘海屏幕 示例代码: // // ViewController.m // IOS_SAFEAREA_TEST // // Created by Hacker X on 2023/10/14. //#import "ViewController.h"interface ViewController ()endimplementation ViewController- (void)viewDidLoad {[super viewDidLoad]…

使用 VS Code 作为 VC6 的编辑器

使用 VS Code 作为 VC 6.0 的编辑器 由于一些众所周知的原因,我们不得不使用经典(过时)的比我们年龄还大的已有 25 年历史的 VC 6.0 来学习 C 语言。而对于现在来说,这个经典的 IDE 过于简陋,并且早已不兼容新的操作系…

【C++进阶之路】IO流

文章目录 一、C语言的IO1.键盘与显示屏2. 文件与内存3.字符串与内存 二、CIO1.iostream1.1基本使用1.2operator bool 2. fstream2.1二进制的文件读写2.2字符串的文件读写 3. sstream3.1序列化与反序列化3.2拼接字符串3.3将数据类型转换为字符串 总结 一、C语言的IO 1.键盘与显…

渗透测试工具(3)Burpsuite

笔记目录 渗透测试工具(1)wireshark渗透测试工具(2)Nmap渗透测试工具(3)Burpsuite 1.简介 是Web应用程序测试,请求的拦截和修改,扫描web应用程序漏洞,以暴力破解登陆表单,执行会话令牌等多种的随机性检查。 (1)模块介绍 ①Intercept:用于显示和修改Ht…

JavaScript从入门到精通系列第二十二篇:JavaScript中的toString方法和JavaScript中的垃圾回收

文章目录 一:toString方法 1:怪异的返回值[object Object] 2:打印对象成为一个JSON 二:垃圾回收(GC) 1:垃圾回收概念 2:JS当中的垃圾回收机制 3:JS中的垃圾回收算…

python中的yolov5结合PyQt5,使用QT designer设计界面没正确启动的解决方法

python中的yolov5结合PyQt5,使用QT designer设计界面没正确启动的解决方法 一、窗体设计test: 默认你已经设计好了窗体后: 这时你需要的是保存生成的untitle.ui到某个文件夹下,然后在命令行中奖.ui转换为.py(,通过​​…

抖音同城榜:探索城市新潮流

随着科技的飞速发展,短视频已经成为了人们日常生活中不可或缺的一部分。作为短视频领域的佼佼者,抖音一直致力于为用户带来更丰富、更有趣的短视频内容。抖音同城榜应运而生,成为了最新、最热门的话题聚集地,吸引了大量潮流达人和…

微信小程序之授权登录以及授权登录流程讲解

前言: 之前博主给大家介绍了小程序的授权登录案例,今天我使用结合项目,后台的方式来给大家展示 一,微信授权登录流程 步骤流程: 1.小程序调用wx.login() 获取 临时登录凭证code ,并回传到开发者服务器 2.开…