论文阅读(十五):DNA甲基化水平分析的潜变量模型

1.论文链接:Latent Variable Models for Analyzing DNA Methylation

摘要:

脱氧核糖核酸(DNA)甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几种特定潜变量模型,包括在低维环境中建模DNA甲基化数据的方法,例如在候选基因研究中,以及在高维环境中建模DNA甲基化的递归分区混合模型方法。

关键词:DNA甲基化,隐变量模型,递归分区混合模型

DNA甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几个特定的潜变量模型。首先讨论了在低维环境中(如候选基因研究中)建模DNA甲基化数据的方法。离散和连续潜变量是有区别的,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。然后在高维环境中建模DNA甲基化的方法,例如从表达中获得的数据,微阵列,进行了讨论。在这种情况下,连续潜变量变得难以操作和解释,因此重点只放在计算效率高的聚类方法上。递归分区混合模型(RPMM)以类似于分层聚类的分层格式呈现类,从而允许以常规算法不支持的方式进行树修剪。然而,RPMM不能处理从现今标准甲基化阵列获得的数据。因此,RPMM配备了一个预处理步骤,以产生半监督RPMM(SS-RPMM),这是一个可扩展的过程。

15.1介绍

表观遗传学是研究基因功能的可遗传变化,而这些变化不能用DNA序列的变化来解释。任何多系统生命形式的发育都是以系统性细胞分化为基础的,由细胞的谱系定型决定,其起源可以追溯到多能祖细胞。现在已经确定,这种谱系承诺的标志是有丝分裂可遗传的表观遗传变化,反映了复杂的转录程序。一个这样的表观遗传标记是在DNA碱基对C和鸟嘌呤(G)(CpG二核苷酸)的胞嘧啶(C)上添加甲基;这种甲基化标记与染色质和核小体DNA sca?old的改变紧密相关,而染色质和核小体DNA sca?old又负责个体细胞内基因表达的协调[20,23,32]。因此,DNA甲基化与细胞分化密切相关,其CpG二核苷酸序列上的甲基化蛋白实质上编码了有关其细胞功能的信息.例如,图15.1,来自[8],描述了一个聚类热图,显示了11种不同组织类型基于其500个CpG二核苷酸处的DNA甲基化蛋白聚类的程度。图15.1表明,从多变量的角度来看,DNA甲基化的测量保留了许多关于细胞类型的信息。

这一事实已在癌症生物学中被利用来区分肿瘤,这些肿瘤在其分子特征的基础上在组织病理学上看起来相似。特别是,CpG岛甲基化表型(CIMP)已成为了解癌症的流行构建体[16,35,42,43]。从本质上讲,已经观察到肿瘤细胞中的DNA甲基化,在少数基因的启动子区域中测量,编码关于肿瘤的表型信息。因此,通过研究DNA甲基化测量的向量Y的多变量结构,有效地增强了对肿瘤生物学的理解。在某种程度上,Y具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围[29,30]。

对于给定的CpG,可以预期细胞的克隆群体具有分类甲基化状态,0、1/2或1,这取决于CpG分别在两条染色体、一条染色体或两条染色体上是否甲基化。由于半甲基化(仅在一条染色体上的DNA甲基化)相对罕见,因此克隆细胞群体上的DNA甲基化分析可以被视为观察到的二分变量向量上的潜在变量问题。虽然肿瘤群体通常是克隆的,但在实践中,在没有劳动密集型显微切割技术的情况下,通常很难将肿瘤细胞与周围的正常细胞或间质组织分离。此外,人们对测定全血中的DNA甲基化感兴趣[31,39,6],其DNA甲基化状态由不同循环血细胞的混合物决定[34,44]。因此,DNA甲基化测量在实践中可能是单位区间内的连续变量,双峰(在相对克隆的细胞群体的情况下)或单峰(在极其异质的混合物如血液的情况下)。

假设Y的各分量的分布取决于技术。有各种各样的测定和微阵列平台可用于测量DNA甲基化; Peter Laird最近的综述中提供了一个全面的列表[25]。流行的例子包括甲基化特异性聚合酶链反应(PCR)[15],COBRA [45],PCR后焦磷酸测序[41],MethyLight [12],Sequenom [21],Illumina甲基化阵列[3-5]和MeDIP [36]。这些方法中的第一个是劳动密集型方法的例子,适用于候选基因研究或微阵列结果的验证,而后两个方法允许高通量分析。甲基化特异性PCR(MSP)为每个询问的位点(基因)产生二分值,未甲基化(编码为0)和甲基化(编码为1)。COBRA、焦磷酸测序、MethyLight、Sequenom和Illumina甲基化阵列为每个询问的基因座产生0和1之间的区间缩放值。一些平台,如MethyLight,原则上可以产生任意大的值,超过1,尽管这种难以解释的事件通常很少发生。另一方面,MeDIP产生以规则间隔测量的荧光强度值,具有非常密集的基因组覆盖范围,并且通常减少到与p值相关的峰值强度;峰值的解释意味着是二分法的。

图15.2说明了本章所考虑的模型类型。假设来自潜在大量J个个体基因座的DNA甲基化测量值Yij具有由它们对共同的未观察到的变量Zi的依赖性引起的相关性。变量Zi可以是分类变量或单变量连续变量,代表分子亚型或总体甲基化倾向,本身可能受协变量xi的影响。从统计建模的角度来看,这是一个看似简单的公式,但潜在的大量基因座,J,可以复杂的估计和解释。

在本章的其余部分,我们讨论了几个特定的潜变量模型,这些模型在过去十年中被用来分析DNA甲基化数据。在第17.2节中,我们讨论了在低维环境(小J)中建模DNA甲基化数据的方法,例如,候选基因研究在这里,我们区分离散和连续的潜变量,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。在第17.3节中,我们讨论了在高维环境(大J)中建模DNA甲基化的方法,例如,数据来自表达微阵列。在这种情况下,连续潜变量变得难以操作和解释,因此我们只关注计算效率高的聚类方法。

在下面的数学阐述中,矩阵总是用粗体大写字母表示。大写字母也用于指定一个随机变量,而小写字母则用于指定数量。粗体字母也表示矢量(随机或固定),而普通类型表示标量。除非另有说明,否则所有向量都假定为列向量,其中行向量被写为转置列向量。

15.2低维环境下DNA甲基化的潜变量方法

当位点数J的值相对较小时,可以构建丰富的图形模型。在本节中,我们描述了几种用于小候选基因研究的方法,这些方法大多出现在世纪的前十年中期。

15.2.1离散潜变量

当Zi是离散变量时,相应的潜变量分析导致聚类问题。尽管许多流行的非参数聚类技术,如K均值或分层聚类,已用于DNA甲基化数据的分析[35],但有证据表明基于可能性的方法可能提供上级结果[37]。因此,我们在本章中主要关注这种基于似然性的方法,这些方法通常被称为基于模型的聚类[13,14]。这些方法最终依赖于我们现在描述的“尼特混合物模型”。

15.2.2连续潜变量

15.3高维环境下DNA甲基化的潜变量方法

现代DNA甲基化研究利用高密度微阵列甚至基于测序的技术,导致高维数据集的J值极大。表15.2展示了常见可用阵列的维度与第17.2节中描述的应用中遇到的维度的比较。在这种情况下,一维连续的Z是不切实际的,而维度足以建模Y的多变量Z会导致使用严格的基于似然的方法时计算不可行。即使是有限混合模型(15.1)在使用标准软件如Mplus[13]进行拟合时也很耗时。因此,分析高维基因组数据的可行算法需要简化假设。在本节中,我们描述了一些用于分析DNA甲基化阵列的方法。

15.3.1基于模型的聚类:递归分区混合模型

RPMM已在许多环境中使用。在其首次亮相[18]时,它被用于对图15.1中所示的211个组织的DNA甲基化过程进行聚类,从而产生与组织类型高度对应的潜在类别。在一项检查胸膜间皮瘤和正常胸膜的DNA甲基化的研究中,RPMM分类与肿瘤和正常分类高度一致,与肺石棉负荷相关,并预测患者生存[7]。在另一项检查HNSCC肿瘤的研究中[28],RPMM类别区分了正常和肿瘤样本,如图15.4所示,并与其他病因因素良好相关,如图15.5所示(第400页)。对应于这些HNSCC肿瘤子集的RPMM类别分配也与拷贝数改变的类别相关[33],如图15.6所示(第400页)。在一项乳腺癌研究中,RPMM甲基化类别与肿瘤大小、酒精和膳食叶酸摄入量相关[9],在一项神经胶质瘤研究中,发现RPMM类别与生存率和IDH1基因突变相关[10]。在结肠癌中发现了RPMM甲基化类别和突变之间的类似关联[16]。

15.3.2半监督递归分区混合模型

RPMM算法被设计为解决分析GoldenGate甲基化阵列(Illumina)的要求,其询问J = 1505个CpG位点。然而,来自Illumina的标准甲基化阵列现在询问从27 578到485 577个CpG位点的任何地方,远远超过甚至RPMM的计算能力。此外,对于任何给定的临床或流行病学问题,甚至可能很难制定一个简单的潜在变量模型,可以有意义地与感兴趣的结果相关。

受Bair和Tibshirani [1]提出的“半监督”方法的启发,RPMM配备了预处理步骤以产生半监督RPMM(SS-RPMM)[24]。在该方法中,根据DNA甲基化测定值关于临床结果提供信息的程度对每个CpG进行排序。选择M个信息量最大的CpG以包括在RPMM算法中,其中M的值经由十倍交叉验证来选择以优化预测性能。在独立数据集中验证结果(可能通过在对CpG进行排名之前将较大样本分成训练集和测试集来获得):通过独立数据集中受试者的经验贝叶斯预测RPMM类别分配,并评估预测的类别成员资格和结果之间的关联。独立或分裂样本验证用于规避可能由于使用将用于进行最终预测推断的数据预选位点而导致的过度设置的可能性。

SS-RPMM已用于膀胱癌病例对照研究,以预测使用In 27 K微阵列(Illumina)从全血中测定的DNA甲基化的病例状态[31]。此外,它已被用于来自相同阵列技术的数据,以检查人类胎盘中DNA甲基化与婴儿生长受限之间的关联[2]。

15.4结论

我们概述了用于DNA甲基化数据分析的潜在变量模型。所使用的两种主要模型类型是尼特混合模型(15.1),一种本质上离散的潜变量建模方法,以及潜在特质模型(15.5)的变体。随着时间的推移,前一种方法比后一种方法更有用,因为它的结果已被证明更容易解释,并且与CpG岛甲基化表型(CIMP)的想法一致,该想法包含DNA甲基化过程中固有的“分子亚型”,或者在分析mRNA表达数据的背景下类似的想法[1]。此外,Nite混合模型更容易扩展到高维环境,其中通过连续潜在特征对相关性进行充分表征将需要中等或高维的多变量潜在连续维度,从而使数值求积复杂化,并导致MCMC方法即使在中等维度下也被证明是繁琐的[19]。然而,最近的工作已经将奇异值分解[26]或独立成分分析[40]应用于mRNA表达和DNA甲基化数据,目的是表征技术噪声并对其进行解释。这些论文中考虑的高维需要类似于[24]中提出的基因座选择技术,因此代表了类似于上面第17.3节中讨论的折衷方案。

在低维设置中,模型(15 - 1)可以以类似于模型(15 - 5)的方式调节协变量xTγ。然而,在高维中,要求γ对所有类保持恒定会破坏通过递归划分数据集所获得的计算增益。因此,首选方法是在第二阶段分析中估计类别成员关系的协变量依赖性;简单的双变量方法出现在[7,28]中,而用于模拟更复杂的多变量关联的多项逻辑回归方法出现在[9]中。目前的研究涉及使用更复杂的多变量分布g来解释与相同基因相关的CpG基因座之间的相关性,或者通过两个不同的阵列测量的相同CpG基因座之间的相关性(例如,在不同的组织或在同一组织在不同的时间点);也正在调查的是更多的生物驱动的选择CpG基因座的方法,类似于SS-RPMM。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/68514.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot+Electron教务管理系统 附带详细运行指导视频

文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.查询课程表代码2.保存学生信息代码3.用户登录代码 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SpringBootElectron框架开发的教务管理系统。首先&#xff…

STM32 LED呼吸灯

接线图: 这里将正极接到PA0引脚上,负极接到GND,这样就高电平点亮LED,低电平熄灭。 占空比越大,LED越亮,占空比越小,LED越暗 PWM初始化配置 输出比较函数介绍: 用这四个函数配置输…

RAG是否被取代(缓存增强生成-CAG)吗?

引言: 本文深入研究一种名为缓存增强生成(CAG)的新技术如何工作并减少/消除检索增强生成(RAG)弱点和瓶颈。 LLMs 可以根据输入给他的信息给出对应的输出,但是这样的工作方式很快就不能满足应用的需要: 因…

docker 部署 java 项目详解

在平常的开发工作中,我们经常需要部署项目,开发测试完成后,最关键的一步就是部署。今天我们以若依项目为例,总结下部署项目的整体流程。简单来说,第一步:安装项目所需的中间件;第二步&#xff1…

【C++】STL介绍 + string类使用介绍 + 模拟实现string类

目录 前言 一、STL简介 二、string类 1.为什么学习string类 2.标准库中的string类 3.auto和范围for 4.迭代器 5.string类的常用接口说明 三、模拟实现 string类 前言 本文带大家入坑STL,学习第一个容器string。 一、STL简介 在学习C数据结构和算法前,我…

使用 MSYS2 qemu 尝鲜Arm64架构国产Linux系统

近期,我的师弟咨询我关于Arm64架构的国产CPU国产OS开发工具链问题。他们公司因为接手了一个国企的单子,需要在这类环境下开发程序。说实在的我也没有用过这个平台,但是基于常识,推测只要基于C和Qt,应该问题不大。 1. …

电路研究9.2.3——合宙Air780EP中FTP——FTPGET 命令使用方法研究

怎么说呢,之前也是看的,但是也很迷茫,感觉上虽然是对的,但是无法联系到应用里面,今天研究一下FTP 命令使用方法吧。 15.29 使用方法举例 这里发现下面那些看的不懂呢,于是就返回FTP的应用了。 9.5.4 FTP 应…

单细胞分析基础-第一节 数据质控、降维聚类

scRNA_pipeline\1.Seurat 生物技能树 可进官网查询 添加链接描述 分析流程 准备:R包安装 options("repos"="https://mirrors.ustc.edu.cn/CRAN/") if(!require("BiocManager")) install.packages("BiocManager",update = F,ask =…

【数组OJ】两数之和

两数之和 题目 思路 暴力枚举:逐一遍历,将当前数与之后的数个个相加、判断其相加后是否等于target 代码实现 /*** Note: The returned array must be malloced, assume caller calls free().*///暴力枚举: int* twoSum(int* nums, int nu…

ResNeSt: Split-Attention Networks 参考论文

参考文献 [1] Tensorflow Efficientnet. https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet. Accessed: 2020-03-04. 中文翻译:[1] TensorFlow EfficientNet. https://github.com/tensorflow/tpu/tree/master/models/official/efficien…

Java后端之AOP

AOP&#xff1a;面向切面编程&#xff0c;本质是面向特定方法编程 引入依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency>示例&#xff1a;记录…

51单片机开发:独立键盘实验

实验目的&#xff1a;按下键盘1时&#xff0c;点亮LED灯1。 键盘原理图如下图所示&#xff0c;可见&#xff0c;由于接GND&#xff0c;当键盘按下时&#xff0c;P3相应的端口为低电平。 键盘按下时会出现抖动&#xff0c;时间通常为5-10ms&#xff0c;代码中通过延时函数delay…

java求职学习day18

常用的设计原则和设计模式 1 常用的设计原则&#xff08;记住&#xff09; 1.1 软件开发的流程 需求分析文档、概要设计文档、详细设计文档、编码和测试、安装和调试、维护和升级 1.2 常用的设计原则 &#xff08;1&#xff09;开闭原则&#xff08;Open Close Principle…

c++ 定点 new

&#xff08;1&#xff09; 代码距离&#xff1a; #include <new> // 需要包含这个头文件 #include <iostream>int main() {char buffer[sizeof(int)]; // 分配一个足够大的字符数组作为内存池int* p new(&buffer) int(42); // 使用 placement new…

本地部署 DeepSeek-R1 大模型指南:基于 Ollama 的完整流程

Ollama是什么 Ollama 是一个开源的大语言模型本地化部署与管理工具&#xff0c;支持&#xff1a; 一键式模型下载与版本管理 本地化模型推理服务部署 REST API 接口提供 多平台客户端接入支持 整体步骤 安装 OllamaOllama服务配置部署模型客户端配置&#xff08;Page Ass…

Git Bash 配置 zsh

博客食用更佳 博客链接 安装 zsh 安装 Zsh 安装 Oh-my-zsh github仓库 sh -c "$(curl -fsSL https://install.ohmyz.sh/)"让 zsh 成为 git bash 默认终端 vi ~/.bashrc写入&#xff1a; if [ -t 1 ]; thenexec zsh fisource ~/.bashrc再重启即可。 更换主题 …

Controller 层优化四步曲

Controller 层优化四步曲 前言 在开发过程中&#xff0c;Controller 层作为系统与外界交互的桥梁&#xff0c;承担着接收请求、解析参数、调用业务逻辑、处理异常等职责。 然而&#xff0c;随着业务复杂度的增加&#xff0c;Controller 层的代码往往会变得臃肿且难以维护。 …

面试经典150题——图

文章目录 1、岛屿数量1.1 题目链接1.2 题目描述1.3 解题代码1.4 解题思路 2、被围绕的区域2.1 题目链接2.2 题目描述2.3 解题代码2.4 解题思路 3、克隆图3.1 题目链接3.2 题目描述3.3 解题代码3.4 解题思路 4、除法求值4.1 题目链接4.2 题目描述4.3 解题代码4.4 解题思路 5、课…

FLTK - FLTK1.4.1 - 搭建模板,将FLTK自带的实现搬过来做实验

文章目录 FLTK - FLTK1.4.1 - 搭建模板&#xff0c;将FLTK自带的实现搬过来做实验概述笔记my_fltk_test.cppfltk_test.hfltk_test.cxx用adjuster工程试了一下&#xff0c;好使。END FLTK - FLTK1.4.1 - 搭建模板&#xff0c;将FLTK自带的实现搬过来做实验 概述 用fluid搭建UI…

【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性,初识向量以及向量加法

目录 ​编辑 ​编辑 1.Chapter 2 Why Linear Algebra? 2.Chapter 3 What Is a Vector? 个人主页&#xff1a;Icomi 大家好&#xff0c;我是Icomi&#xff0c;本专栏是我阅读外文原版书《Before Machine Learning》对于文章中我认为能够增进线性代数与机器学习之间的理解的…