论文解析-moETM-多组学整合模型

论文解析-moETM

  • 参考
  • 亮点
  • 动机
  • 发展现状
    • 现存问题
  • 功能
  • 方法
    • Encoder改进
    • Decoder改进
  • 评价指标
    • 生物保守性
    • 批次效应移除
  • 实验设置
  • 结果
    • 多组学数据整合
    • cell-topic mixture可解释性
    • 组学翻译性能评估
    • RNA转录本、表面蛋白、染色质可及域调控关系研究
      • 1. 验证同一主题下,top gene可以映射到top protein
        • 过程
        • 结果
      • 2. 跨主题验证gene-protein、peak-gene的调控关系
        • 过程
        • 结果
      • 3. 验证重构的gene-protein、peak-gene更能反映组学相关性
    • 联合peak-gene分析细胞类型特异性通路和调控机制
      • 分析细胞类型特异性通路
      • 分析细胞类型特异性motif
      • 分析细胞类型特异性通路联合motif
  • 补充
    • 基因(蛋白)集富集过程
    • 基因与翻译蛋白表达负相关的可能原因
    • 寻找细胞标志物的资源--CellMarker数据库
    • 寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets

参考

Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
在这里插入图片描述

亮点

动机

从单细胞多组学数据探究生物模式的现存困难:

  1. 相比单组学技术,多组学技术通量更低,数据包含的细胞数量较少
  2. 不同组学结合之后特征维度更高,例如把scRNA-seq和scATAC-seq结合到一起
  3. 多组学数据噪声更多(解决方式:概率模型)
  4. 批处理效应
  5. 多组学测序技术成本更高(解决方式:用模型预测缺失的组学数据)

发展现状

方法文献
SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.
totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.
multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.
CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.
scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.
MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.
MOFA+Argelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.

现存问题

  1. 需要在可扩展性、可解释性和灵活性进行权衡
  2. 完全数据驱动,不能充分利用生物学信息,例如基因注释和通路信息

功能

  1. 细胞聚类,识别细胞亚型
  2. 基于一个组学数据插补另一个组学数据
  3. 识别细胞类型特征和生物标志物

方法

在这里插入图片描述

整体是VAE架构,但是他在Encoder和Decoer分别作了改进:

Encoder改进

  1. 假设每个组学数据分布符合K维独立的逻辑正态分布,这里采用K维高斯乘积(PoG)充分利用这些分布的信息,比之前的MoE得到更有效的变分推理。
  2. 前人方法对每个组学分别进行采样K维高斯变量然后平均化,这里只需从联合高斯采样一次,因此可以得到更鲁棒的结果。
  3. Topic解释:对联合高斯密度进行Softmax计算,生成的逻辑正态分布可视为细胞的主题混合。

Decoder改进

  1. 矩阵分解作为Decoder,把cell-by-feature matrices分解成shared cell-by-topic matrix,shared topic-embedding matrix和M(组学数量)个独立的feature-embedding matrices
  2. 引入组学特异性的批次移除因子λ,作为线性可加的批次特异性偏差

评价指标

生物保守性

  1. Adjusted Rand Index (ARI)
  2. Normalized Mutual Information (NMI)

批次效应移除

  1. k-nearest neighbor batch effect test (kBET)
  2. Graph connectivity (GC):衡量不同批次相同细胞类型之间的相似性,同时衡量生物保守型和批次移除效应

实验设置

随机分为训练集:测试集=6:4,重复500次

结果

多组学数据整合

在这里插入图片描述

  1. 在4个peak-gene数据集上的平均指标第二,在3个gene-protein数据集上的平均指标第一,在所有7个数据集上平均指标第一
  2. moETM_* 为只利用组学*的数据进行训练和测试,与moETM结果对比表示,整合多组学数据比单组学数据得到更准确的结果
  3. moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法,结果降低了,说明PoG对于moETM起重要作用

cell-topic mixture可解释性

在这里插入图片描述
使用BMMC2数据集,把moETM训练得到的cell-by-topic matrix进行UMAP可视化,与其他方法得到的cell embdding可视化进行对比。
说明,cell-by-topic matrix既消除的BatchEffect,又识别了细胞类型。

组学翻译性能评估

在这里插入图片描述

  1. 由A、B图看出,基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似,且高度线性相关(PCC约0.95)
  2. 由C、D图看出,基于ATAC数据翻译的基因数据与原始基因数据高度相似,且高度线性相关(PCC约0.69)
  3. 由A、C图对比看出,相比蛋白表达数据,基因表达数据明显更稀疏。因此,基于ATAC翻译RNA比基于RNA翻译蛋白更难
  4. 实验结果的PCC(ATAC2RNA=0.69,RNA2ATAC=0.58,RNA2protein=0.95,protein2RNA=0.65),由此推断翻译任务难度RNA2protein < ATAC2RNA < protein2RNA < RNA2ATAC

RNA转录本、表面蛋白、染色质可及域调控关系研究

1. 验证同一主题下,top gene可以映射到top protein

过程

对于每个topic,计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation

结果
  1. 平均相关性在0.29
  2. 13个topic 相关性高于0.5

2. 跨主题验证gene-protein、peak-gene的调控关系

过程

如果一个peak在一个基因转录起始位点150k bp之内,则认为他们是匹配的。
查看匹配的peak-gene、gene-protein的相关系数分布

结果

查看匹配的peak-gene、gene-protein的相关系数分布显著高于0,并且和观测值得到的分布类似。
说明:该算法在整合的时候保留的调控相关性,且能反映原始数据特征

3. 验证重构的gene-protein、peak-gene更能反映组学相关性

在这里插入图片描述
表明模型可以对观测数据的噪声进行降噪和混杂校正,更能反映单细胞中的不同组学的相关性

联合peak-gene分析细胞类型特异性通路和调控机制

分析细胞类型特异性通路

  1. 聚焦于一种类型的细胞(CD8+ T cells),将peak匹配到gene上,peak在一个基因转录起始位点150k bp之内,找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析
  2. 发现Top5 genes中3个与T细胞功能相关,Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关,说明揭示了细胞类型特异性基因。
  3. 对Top5 genes、Top5 peak-neighboring genes进行通路富集(GSEA),得到的富集pathway与当前细胞类型相关,富集的基因集在当前细胞类型中显示出差异性表达(上调或下调),表明揭示了细胞类型特异性通路,及调控机制

分析细胞类型特异性motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),从Ensembl database中,寻找根据Topic score排名的Top100 peaks对应的100个序列
  2. 将100个序列输入SEA算法,寻找这100个序列富集的motif
  3. 通过连接 Top genes,细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络
  4. 通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来
  5. 结果表明:根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes,说明模型识别了细胞类型特异性调控机制和motif特征

分析细胞类型特异性通路联合motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络
  2. motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线
  3. 对比该类型的富集motif与相关的pathway(基因特异性表达,上调或下调),表示motif和pathway之间的调控关系一致性

补充

基因(蛋白)集富集过程

在这里插入图片描述

  1. 对于每个Topic,根据主题分数得到的rank gene list,通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集(免疫学特征基因集,基因本体生物过程)
  2. 对于过表达或低表达的基因计算富集分数(ES)
  3. 计算ES的统计学显著性
  4. 认为显著性 p-value<0.05 的基因集是显著的
  5. 图中每个颜色代表一个基因集(pathway),虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway

基因与翻译蛋白表达负相关的可能原因

  1. 随机噪声可能会阻碍基因和蛋白质之间的相关性
  2. 单细胞水平的动态细胞过程(转录爆发、转录或翻译延迟)可引起细胞之间的差异,导致相关性降低
  3. 其他生物过程的影响压倒了转录的影响(转录后翻译的影响超过了蛋白质合成)
  4. mRNA降解速度超过蛋白质合成速度

寻找细胞标志物的资源–CellMarker数据库

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.

寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets

The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046.
ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/109418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考-面向对象技术

面向对象的基本概念 对象&#xff1a;属性&#xff08;数据&#xff09; 方法&#xff08;操作&#xff09; 对象ID类&#xff08;实体类、控制类/边界类&#xff09;继承与泛化&#xff1a;复用机制封装&#xff1a;隐藏对象的属性和实现细节&#xff0c;仅对外公开接口多态&…

Photon——Fusion服务器(Failed to find entry-points:System.Exception: )

文章目录 前言解决方案:1.报警信息如下2.选择3d urp3.引入Fusion之后选择包管理,点击Burst中的Advanced Project Settings4.勾选两个预设选项5.引入官网unity.burst6.更新后报警消失总结前言 制作局域网游戏,出现未找到进入点报警 Failed to find entry-points 解决方案: …

私域流量经营怎么做?私域流量转化功能推荐

流量在商业中扮演着至关重要的角色。无论是在线下还是线上&#xff0c;谁能更快地获取和利用流量&#xff0c;谁就能在激烈的市场竞争中占据优势。然而&#xff0c;流量的转化方式在传统和数字化营销系统中有着显著的差异。 数字化营销系统&#xff0c;如分销系统、拼团系统、分…

保姆级教程:百度AI简单使用

1.进入AI对话界面 随便提个问题 这里我选择了程序猿小助手 文心一言网站 https://yiyan.baidu.com/welcome 文心一言可以做什么 与人对话互动&#xff0c;回答问题&#xff0c;协助创作&#xff0c;高效便捷地帮助人们获取信息、知识和灵感。 参考截图

WPF 用户控件依赖注入赋值

前言 我一直想组件化得去开发WPF&#xff0c;因为我觉得将复杂问题简单化是最好的 如何组件化开发 主窗口引用 <Window x:Class"WpfApp1.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.…

Golang学习:基础知识篇(三)—— Map(集合)

Golang学习&#xff1a;基础知识篇&#xff08;三&#xff09;—— Map集合 前言什么是Golang&#xff1f;Map集合定义 Map综合实例补充 前言 很久之前就想学Go语言了&#xff0c;但是一直有其他东西要学&#xff0c;因为我学的是Java嘛&#xff0c;所以后面学的东西一直是跟J…

[MySQL]BLOB/TEXT column ‘xxx‘ used in key specification without a key length

报错信息&#xff1a; SQLSTATE[42000]: Syntax error or access violation: 1170 BLOB/TEXT column xxx used in key specification without a key length 原因&#xff1a; MySQL的唯一索引不支持text类型的字段&#xff01;

对代码感兴趣 但不擅长数学怎么办——《机器学习图解》来救你

目前&#xff0c;该领域中将理论与实践相结合、通俗易懂的著作较少。机器学习是人工智能的一部分&#xff0c;很多初学者往往把机器学习和深度学习作为人工智能入门的突破口&#xff0c;非科班出身的人士更是如此。当前&#xff0c;国内纵向复合型人才和横向复合型人才奇缺;具有…

网络安全分析——蠕虫病毒动态分析视图

蠕虫病毒&#xff08;Worm Virus&#xff09;是一种自我复制的恶意软件&#xff0c;通过网络或系统漏洞传播&#xff0c;感染其他计算机并利用其资源。与其他病毒不同&#xff0c;蠕虫病毒无需依赖于宿主文件&#xff0c;并可以自动在网络中传播&#xff0c;因此具有高度传染性…

公司如何防止源代码外泄,保护开发部门代码安全呢?

在智能制造业中&#xff0c;研发人员的开发环境&#xff0c;大多数采用c#开发语言svn 或c#git进行软件系统的开发&#xff0c;但是c#语言如何来防泄密保护呢&#xff1f;德人合科技针对于制造类企业制定了安全稳定的源代码防泄密方案&#xff0c;不影响员工的正常工作&#xff…

前端HTML要了解的知识,DOCTYPE 声明究竟是做什么的、作用是什么?

&#x1f31f;&#x1f31f;&#x1f31f; 专栏详解 &#x1f389; &#x1f389; &#x1f389; 欢迎来到前端开发之旅专栏&#xff01; 不管你是完全小白&#xff0c;还是有一点经验的开发者&#xff0c;在这里你会了解到最简单易懂的语言&#xff0c;与你分享有关前端技术和…

Excel冻结窗格

1、冻结表格首行 点击菜单栏中的“视图”&#xff0c;选择“窗口”选项卡中的“冻结窗格”下的小三角&#xff0c;再选择“冻结首行”&#xff1b; 2.冻结表格首列 点击菜单栏中的“视图”&#xff0c;选择“窗口”选项卡中的“冻结窗格”下的小三角&#xff0c;再选择“冻结…

外汇天眼:澳大利亚拟规范数字资产中介与交易所!

澳大利亚政府&#xff0c;通过财政部&#xff0c;宣布正在努力引入一项监管框架&#xff0c;针对为澳大利亚居民和澳大利亚企业提供数字资产访问和持有服务的实体&#xff0c;将包括对所有数字资产中介的许可要求。 这些改革旨在解决已经确定的消费者风险&#xff0c;并支持数…

通过这个技术,浏览器可以运行Node.js、Rust、Python、PHP、C++、Java代码了!

近日&#xff0c;WebContainers 发布重要更新&#xff0c;WASI&#xff08;WebAssembly 系统接口&#xff09;已全面集成到 WebContainers 中。这是一个重要里程碑&#xff0c;它扩大了可以使用浏览器执行的操作&#xff0c;是 Web 开发的全新范例&#xff0c;允许运行大量原生…

应用在红外线遥控领域中的心率传感信号接收芯片

红外遥控是一种无线、非接触控制技术&#xff0c;具有抗干扰能力强&#xff0c;信息传输可靠&#xff0c;功耗低&#xff0c;成本低&#xff0c;易实现等显著优点&#xff0c;被诸多电子设备特别是家用电器广泛采用&#xff0c;并越来越多的应用到计算机和手机系统中。 红外线…

探讨Acrel-1000DP分布式光伏系统的设计与应用-安科瑞 蒋静

摘 要&#xff1a;分布式光伏发电特指在用户场地附近建设&#xff0c;运行方式以用户侧自发自用、余电上网&#xff0c;且在配电系统平衡调节为特征的光伏发电设施&#xff0c;是一种新型的、具有广阔发展前景的发电和能源综合利用方式&#xff0c;它倡导就近发电&#xff0c;就…

视频太大怎么压缩变小?三分钟学会视频压缩

随着科技的不断发展&#xff0c;视频已经成为了我们日常生活中不可或缺的一部分&#xff0c;然而&#xff0c;大尺寸的视频文件常常会给我们带来诸多困扰&#xff0c;例如发送不便、存储空间不足等等&#xff0c;那么&#xff0c;如何将这些过大的视频文件压缩变小呢&#xff1…

新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star

Coqui TTS 项目介绍 Coqui 文本转语音&#xff08;Text-to-Speech&#xff0c;TTS&#xff09;是新一代基于深度学习的低资源零样本文本转语音模型&#xff0c;具有合成多种语言语音的能力。该模型能够利用共同学习技术&#xff0c;从各语言的训练资料集转换知识&#xff0c;来…

2023年中国熔盐储能装机量、新增装机量及行业投资规模分析[图]

熔盐储能是一种可以传递能量、长时间&#xff08;6-8h&#xff09;、大容量储能的技术路径&#xff0c;作为传热介质可以实现太阳能到热能的转换&#xff0c;作为储能介质可以实现将热能和电能的双向转换&#xff0c;可以很好的适应和解决以上两大矛盾。因此&#xff0c;熔盐储…

基于SVM+Webdriver的智能NBA常规赛与季后赛结果预测系统——机器学习算法应用(含python、ipynb工程源码)+所有数据集(一)

目录 前言总体设计系统整体结构图系统流程图 运行环境Python环境Jupyter Notebook环境PyCharm环境MATLAB环境 模块实现1. 数据预处理1&#xff09;常规赛数据处理2&#xff09;季后赛数据处理 相关其它博客工程源代码下载其它资料下载 前言 本项目使用了从NBA官方网站获得的数…