论文解析-moETM-多组学整合模型

论文解析-moETM

  • 参考
  • 亮点
  • 动机
  • 发展现状
    • 现存问题
  • 功能
  • 方法
    • Encoder改进
    • Decoder改进
  • 评价指标
    • 生物保守性
    • 批次效应移除
  • 实验设置
  • 结果
    • 多组学数据整合
    • cell-topic mixture可解释性
    • 组学翻译性能评估
    • RNA转录本、表面蛋白、染色质可及域调控关系研究
      • 1. 验证同一主题下,top gene可以映射到top protein
        • 过程
        • 结果
      • 2. 跨主题验证gene-protein、peak-gene的调控关系
        • 过程
        • 结果
      • 3. 验证重构的gene-protein、peak-gene更能反映组学相关性
    • 联合peak-gene分析细胞类型特异性通路和调控机制
      • 分析细胞类型特异性通路
      • 分析细胞类型特异性motif
      • 分析细胞类型特异性通路联合motif
  • 补充
    • 基因(蛋白)集富集过程
    • 基因与翻译蛋白表达负相关的可能原因
    • 寻找细胞标志物的资源--CellMarker数据库
    • 寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets

参考

Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
在这里插入图片描述

亮点

动机

从单细胞多组学数据探究生物模式的现存困难:

  1. 相比单组学技术,多组学技术通量更低,数据包含的细胞数量较少
  2. 不同组学结合之后特征维度更高,例如把scRNA-seq和scATAC-seq结合到一起
  3. 多组学数据噪声更多(解决方式:概率模型)
  4. 批处理效应
  5. 多组学测序技术成本更高(解决方式:用模型预测缺失的组学数据)

发展现状

方法文献
SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.
totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.
multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.
CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.
scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.
MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.
MOFA+Argelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.

现存问题

  1. 需要在可扩展性、可解释性和灵活性进行权衡
  2. 完全数据驱动,不能充分利用生物学信息,例如基因注释和通路信息

功能

  1. 细胞聚类,识别细胞亚型
  2. 基于一个组学数据插补另一个组学数据
  3. 识别细胞类型特征和生物标志物

方法

在这里插入图片描述

整体是VAE架构,但是他在Encoder和Decoer分别作了改进:

Encoder改进

  1. 假设每个组学数据分布符合K维独立的逻辑正态分布,这里采用K维高斯乘积(PoG)充分利用这些分布的信息,比之前的MoE得到更有效的变分推理。
  2. 前人方法对每个组学分别进行采样K维高斯变量然后平均化,这里只需从联合高斯采样一次,因此可以得到更鲁棒的结果。
  3. Topic解释:对联合高斯密度进行Softmax计算,生成的逻辑正态分布可视为细胞的主题混合。

Decoder改进

  1. 矩阵分解作为Decoder,把cell-by-feature matrices分解成shared cell-by-topic matrix,shared topic-embedding matrix和M(组学数量)个独立的feature-embedding matrices
  2. 引入组学特异性的批次移除因子λ,作为线性可加的批次特异性偏差

评价指标

生物保守性

  1. Adjusted Rand Index (ARI)
  2. Normalized Mutual Information (NMI)

批次效应移除

  1. k-nearest neighbor batch effect test (kBET)
  2. Graph connectivity (GC):衡量不同批次相同细胞类型之间的相似性,同时衡量生物保守型和批次移除效应

实验设置

随机分为训练集:测试集=6:4,重复500次

结果

多组学数据整合

在这里插入图片描述

  1. 在4个peak-gene数据集上的平均指标第二,在3个gene-protein数据集上的平均指标第一,在所有7个数据集上平均指标第一
  2. moETM_* 为只利用组学*的数据进行训练和测试,与moETM结果对比表示,整合多组学数据比单组学数据得到更准确的结果
  3. moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法,结果降低了,说明PoG对于moETM起重要作用

cell-topic mixture可解释性

在这里插入图片描述
使用BMMC2数据集,把moETM训练得到的cell-by-topic matrix进行UMAP可视化,与其他方法得到的cell embdding可视化进行对比。
说明,cell-by-topic matrix既消除的BatchEffect,又识别了细胞类型。

组学翻译性能评估

在这里插入图片描述

  1. 由A、B图看出,基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似,且高度线性相关(PCC约0.95)
  2. 由C、D图看出,基于ATAC数据翻译的基因数据与原始基因数据高度相似,且高度线性相关(PCC约0.69)
  3. 由A、C图对比看出,相比蛋白表达数据,基因表达数据明显更稀疏。因此,基于ATAC翻译RNA比基于RNA翻译蛋白更难
  4. 实验结果的PCC(ATAC2RNA=0.69,RNA2ATAC=0.58,RNA2protein=0.95,protein2RNA=0.65),由此推断翻译任务难度RNA2protein < ATAC2RNA < protein2RNA < RNA2ATAC

RNA转录本、表面蛋白、染色质可及域调控关系研究

1. 验证同一主题下,top gene可以映射到top protein

过程

对于每个topic,计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation

结果
  1. 平均相关性在0.29
  2. 13个topic 相关性高于0.5

2. 跨主题验证gene-protein、peak-gene的调控关系

过程

如果一个peak在一个基因转录起始位点150k bp之内,则认为他们是匹配的。
查看匹配的peak-gene、gene-protein的相关系数分布

结果

查看匹配的peak-gene、gene-protein的相关系数分布显著高于0,并且和观测值得到的分布类似。
说明:该算法在整合的时候保留的调控相关性,且能反映原始数据特征

3. 验证重构的gene-protein、peak-gene更能反映组学相关性

在这里插入图片描述
表明模型可以对观测数据的噪声进行降噪和混杂校正,更能反映单细胞中的不同组学的相关性

联合peak-gene分析细胞类型特异性通路和调控机制

分析细胞类型特异性通路

  1. 聚焦于一种类型的细胞(CD8+ T cells),将peak匹配到gene上,peak在一个基因转录起始位点150k bp之内,找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析
  2. 发现Top5 genes中3个与T细胞功能相关,Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关,说明揭示了细胞类型特异性基因。
  3. 对Top5 genes、Top5 peak-neighboring genes进行通路富集(GSEA),得到的富集pathway与当前细胞类型相关,富集的基因集在当前细胞类型中显示出差异性表达(上调或下调),表明揭示了细胞类型特异性通路,及调控机制

分析细胞类型特异性motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),从Ensembl database中,寻找根据Topic score排名的Top100 peaks对应的100个序列
  2. 将100个序列输入SEA算法,寻找这100个序列富集的motif
  3. 通过连接 Top genes,细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络
  4. 通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来
  5. 结果表明:根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes,说明模型识别了细胞类型特异性调控机制和motif特征

分析细胞类型特异性通路联合motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络
  2. motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线
  3. 对比该类型的富集motif与相关的pathway(基因特异性表达,上调或下调),表示motif和pathway之间的调控关系一致性

补充

基因(蛋白)集富集过程

在这里插入图片描述

  1. 对于每个Topic,根据主题分数得到的rank gene list,通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集(免疫学特征基因集,基因本体生物过程)
  2. 对于过表达或低表达的基因计算富集分数(ES)
  3. 计算ES的统计学显著性
  4. 认为显著性 p-value<0.05 的基因集是显著的
  5. 图中每个颜色代表一个基因集(pathway),虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway

基因与翻译蛋白表达负相关的可能原因

  1. 随机噪声可能会阻碍基因和蛋白质之间的相关性
  2. 单细胞水平的动态细胞过程(转录爆发、转录或翻译延迟)可引起细胞之间的差异,导致相关性降低
  3. 其他生物过程的影响压倒了转录的影响(转录后翻译的影响超过了蛋白质合成)
  4. mRNA降解速度超过蛋白质合成速度

寻找细胞标志物的资源–CellMarker数据库

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.

寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets

The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046.
ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/109418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考-面向对象技术

面向对象的基本概念 对象&#xff1a;属性&#xff08;数据&#xff09; 方法&#xff08;操作&#xff09; 对象ID类&#xff08;实体类、控制类/边界类&#xff09;继承与泛化&#xff1a;复用机制封装&#xff1a;隐藏对象的属性和实现细节&#xff0c;仅对外公开接口多态&…

Photon——Fusion服务器(Failed to find entry-points:System.Exception: )

文章目录 前言解决方案:1.报警信息如下2.选择3d urp3.引入Fusion之后选择包管理,点击Burst中的Advanced Project Settings4.勾选两个预设选项5.引入官网unity.burst6.更新后报警消失总结前言 制作局域网游戏,出现未找到进入点报警 Failed to find entry-points 解决方案: …

私域流量经营怎么做?私域流量转化功能推荐

流量在商业中扮演着至关重要的角色。无论是在线下还是线上&#xff0c;谁能更快地获取和利用流量&#xff0c;谁就能在激烈的市场竞争中占据优势。然而&#xff0c;流量的转化方式在传统和数字化营销系统中有着显著的差异。 数字化营销系统&#xff0c;如分销系统、拼团系统、分…

保姆级教程:百度AI简单使用

1.进入AI对话界面 随便提个问题 这里我选择了程序猿小助手 文心一言网站 https://yiyan.baidu.com/welcome 文心一言可以做什么 与人对话互动&#xff0c;回答问题&#xff0c;协助创作&#xff0c;高效便捷地帮助人们获取信息、知识和灵感。 参考截图

WPF 用户控件依赖注入赋值

前言 我一直想组件化得去开发WPF&#xff0c;因为我觉得将复杂问题简单化是最好的 如何组件化开发 主窗口引用 <Window x:Class"WpfApp1.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.…

Golang学习:基础知识篇(三)—— Map(集合)

Golang学习&#xff1a;基础知识篇&#xff08;三&#xff09;—— Map集合 前言什么是Golang&#xff1f;Map集合定义 Map综合实例补充 前言 很久之前就想学Go语言了&#xff0c;但是一直有其他东西要学&#xff0c;因为我学的是Java嘛&#xff0c;所以后面学的东西一直是跟J…

[MySQL]BLOB/TEXT column ‘xxx‘ used in key specification without a key length

报错信息&#xff1a; SQLSTATE[42000]: Syntax error or access violation: 1170 BLOB/TEXT column xxx used in key specification without a key length 原因&#xff1a; MySQL的唯一索引不支持text类型的字段&#xff01;

对代码感兴趣 但不擅长数学怎么办——《机器学习图解》来救你

目前&#xff0c;该领域中将理论与实践相结合、通俗易懂的著作较少。机器学习是人工智能的一部分&#xff0c;很多初学者往往把机器学习和深度学习作为人工智能入门的突破口&#xff0c;非科班出身的人士更是如此。当前&#xff0c;国内纵向复合型人才和横向复合型人才奇缺;具有…

网络安全分析——蠕虫病毒动态分析视图

蠕虫病毒&#xff08;Worm Virus&#xff09;是一种自我复制的恶意软件&#xff0c;通过网络或系统漏洞传播&#xff0c;感染其他计算机并利用其资源。与其他病毒不同&#xff0c;蠕虫病毒无需依赖于宿主文件&#xff0c;并可以自动在网络中传播&#xff0c;因此具有高度传染性…

公司如何防止源代码外泄,保护开发部门代码安全呢?

在智能制造业中&#xff0c;研发人员的开发环境&#xff0c;大多数采用c#开发语言svn 或c#git进行软件系统的开发&#xff0c;但是c#语言如何来防泄密保护呢&#xff1f;德人合科技针对于制造类企业制定了安全稳定的源代码防泄密方案&#xff0c;不影响员工的正常工作&#xff…

接口回调中的次数判断方法

在C#中&#xff0c;接口回调是指通过将一个接口实例赋值给一个回调函数&#xff0c;然后在适当的时候调用该回调函数&#xff0c;以实现异步通信或事件处理等功能。在接口回调中&#xff0c;判断是第几次调用可以通过以下方法实现&#xff1a; 使用计数器&#xff1a;在接口中…

前端HTML要了解的知识,DOCTYPE 声明究竟是做什么的、作用是什么?

&#x1f31f;&#x1f31f;&#x1f31f; 专栏详解 &#x1f389; &#x1f389; &#x1f389; 欢迎来到前端开发之旅专栏&#xff01; 不管你是完全小白&#xff0c;还是有一点经验的开发者&#xff0c;在这里你会了解到最简单易懂的语言&#xff0c;与你分享有关前端技术和…

Excel冻结窗格

1、冻结表格首行 点击菜单栏中的“视图”&#xff0c;选择“窗口”选项卡中的“冻结窗格”下的小三角&#xff0c;再选择“冻结首行”&#xff1b; 2.冻结表格首列 点击菜单栏中的“视图”&#xff0c;选择“窗口”选项卡中的“冻结窗格”下的小三角&#xff0c;再选择“冻结…

外汇天眼:澳大利亚拟规范数字资产中介与交易所!

澳大利亚政府&#xff0c;通过财政部&#xff0c;宣布正在努力引入一项监管框架&#xff0c;针对为澳大利亚居民和澳大利亚企业提供数字资产访问和持有服务的实体&#xff0c;将包括对所有数字资产中介的许可要求。 这些改革旨在解决已经确定的消费者风险&#xff0c;并支持数…

Python内置函数enumerate操作可迭代对象及for迭代

enumerate 是 Python 中用于同时获得可迭代对象的元素和它们的索引的内置函数。这对于在循环中需要迭代对象的值以及它们的位置时非常有用。 以下是 enumerate 的基本语法&#xff1a;for index, value in enumerate(iterable): # index 是元素的索引。value 是可迭代对象的元素…

python之自动化点餐定时任务

1、准备一个可执行的python文件 2、使用定时任务管理器配置定时任务 Cron是linux系统的任务管理器 2.1打开终端或控制台 2.2进入crontab编辑器&#xff1a; crontab -e 编辑crontab文件 crontab -l 列出当前用户的所有定时任务 crontab -r 删除当前用户的crontab文…

通过这个技术,浏览器可以运行Node.js、Rust、Python、PHP、C++、Java代码了!

近日&#xff0c;WebContainers 发布重要更新&#xff0c;WASI&#xff08;WebAssembly 系统接口&#xff09;已全面集成到 WebContainers 中。这是一个重要里程碑&#xff0c;它扩大了可以使用浏览器执行的操作&#xff0c;是 Web 开发的全新范例&#xff0c;允许运行大量原生…

浅谈View的绘制流程

Window&#xff1a;每个Activity都会创建一个Window用于承载View视图的显示&#xff0c;Window是一个抽象类存在了一个唯一实现类PhoneWindow DecorView&#xff1a;最顶层的View&#xff0c;是一个FrameLayout子类&#xff0c;最终会被加载到Window当中&#xff0c;它内部只有…

应用在红外线遥控领域中的心率传感信号接收芯片

红外遥控是一种无线、非接触控制技术&#xff0c;具有抗干扰能力强&#xff0c;信息传输可靠&#xff0c;功耗低&#xff0c;成本低&#xff0c;易实现等显著优点&#xff0c;被诸多电子设备特别是家用电器广泛采用&#xff0c;并越来越多的应用到计算机和手机系统中。 红外线…

探讨Acrel-1000DP分布式光伏系统的设计与应用-安科瑞 蒋静

摘 要&#xff1a;分布式光伏发电特指在用户场地附近建设&#xff0c;运行方式以用户侧自发自用、余电上网&#xff0c;且在配电系统平衡调节为特征的光伏发电设施&#xff0c;是一种新型的、具有广阔发展前景的发电和能源综合利用方式&#xff0c;它倡导就近发电&#xff0c;就…