Mowgli用于配对多组学整合

对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是,Mowgli将非负矩阵分解和最优传输相结合,同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mowgli应用于10X Multiome,CITE-seq和TEA-seq分析的多个配对单细胞多组学数据。深入的基准测试表明,Mowgli的性能在细胞聚类方面与最先进的技术相竞争,并且在考虑生物可解释性时优于最先进的技术。

来自:Paired single-cell multi-omics data integration with Mowgli,Nature communications,2023

目录

  • 背景概述
  • 方法概述
  • 可解释方法
  • 结果
    • Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性
    • Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

背景概述

单细胞测序技术提供了细胞异质性的定量测量,正在彻底改变我们对免疫系统、发育和复杂疾病的理解。单细胞测序技术的一个新前沿是多组学单细胞测序,允许同时分析来自同一个细胞的多个分子reads(例如转录组、染色质可及性、表面蛋白)。这些前沿测序技术的例子是CITE-seq,利用寡核苷酸偶联抗体同时测量RNA和表面蛋白的丰度,以及10x Genomics Multiome平台,通过基于液滴的单核分离来测量RNA和染色质的可及性。

多组学单细胞测序平台为我们提供了细胞的互补分子读数,称为配对多组学数据。对这些数据的联合分析提供了一个令人兴奋的机会来了解细胞的不同分子方面是如何协同决定细胞的功能、形态和状态的。因此,最近开发了几种多视图学习方法,通过考虑其共享和互补信息来联合分析配对的多组学数据。这些方法不同于非配对整合方法,它们利用了细胞之间的已知对应关系。最先进的单细胞多组学整合的多视图学习方法是基于矩阵分解,k近邻或变分自编码器。整合矩阵分解(Integrative Matrix Factorization, integrated MF)和变分自编码器进行降维,通过利用公共的细胞/观测,将高维多组学细胞图谱联合嵌入到共享的低维空间。Integrative MF由于其线性性质,定义了一个具有自然生物学解释的潜在空间,但它过于简单,无法捕捉复杂的生物过程。另一方面,非线性方法,如变分自编码器,在聚类细胞中显示出巨大的潜力,但尽管最近在这一主题上有研究,但它们本质上缺乏生物可解释性。因此,改进Integrative MF方法对于在可解释性和性能之间取得平衡至关重要。

作者在此提出了Multi-Omics Wasserstein inteGrative anaLysIs (Mowgli),一种新的Integrative NMF(Non-negative MF)方法用于多组学整合。

一方面,Mowgli采用了iNMF,这种方法在计算生物学中很流行,因为它可以直观地用parts表示,增强了可解释性。另一方面,Mowgli通过利用OT(最有传输)增强了iNMF的聚类性能,之前已经证明OT可以更好地捕捉单细胞组学图谱之间的相似性。作者对Mowgli进行了广泛的基准测试,以整合使用CITE-seq、10X Genomics Multiome和TEA-seq平台分析的多个配对多组学数据。值得注意的是,虽然作者专注于整合当前可用的组学数据,但Mowgli可以处理具有任何类型和数量的组学的配对多组学数据集,而无需对数据进行任何统计假设。

深入比较表明,Mowgli的嵌入和聚类质量在真实多组学数据中优于最先进的技术,并且在更复杂的真实多组学数据中具有竞争力。值得注意的是,后者受到大多数真实数据集上缺乏绝对基础真值注释的影响。最后,通过对TEAseq数据进行深入的生物学分析,证明Mowgli在生物学可解释性方面提高了最新水平。

方法概述

Mowgli是基于集成矩阵分解(integrative Matrix Factorization, integrated MF)。开始于 d d d组学矩阵 A ( p ) ∈ R m p × n A^{(p)}\in\mathbb{R}^{m_{p}\times n} A(p)Rmp×n,其中 p ∈ [ 1 , . . . , d ] p\in[1,...,d] p[1,...,d],具有相同的列(细胞),不同的特征(genes,peaks),Mowgli将它们分解为组学特定的字典 H ( p ) ∈ R m p × k H^{(p)}\in\mathbb{R}^{m_{p}\times k} H(p)Rmp×k和共享的embedding W ∈ R k × n W\in\mathbb{R}^{k\times n} WRk×n k k k是latent空间的维数。

根据最先进的多组学整合MF方法,细胞嵌入 W W W可用于可视化和细胞聚类(图1B)。相反,字典 H ( p ) H^{(p)} H(p)通过基因集富集分析、基序富集分析或通过识别最高权重的marker来实现生物学解释(图1C)。

Mowgli的主要创新是将非负矩阵分解(integrative Non-Negative Matrix Factorization, iNMF)与最优运输(Optimal Transport, OT)相结合,从而解决了优化问题,OT可以优化NMF的重构损失。

Mowgli是Python开发的,支持Scanpy与Muon进行预处理和下游分析,此外,Mowgli提供了一个用户友好的top基因和富集基因集的可视化,从而有助于生物解释性。

作者将Mowgli与最先进的技术进行广泛的基准测试:Seurat v4, Cobolt, Multigrate和MOFA。虽然存在几种方法,但在这里重点介绍了配对数据集成的主要方法。此外,还考虑了综合NMF基线,以比较Mowgli与标准的NMF。
fig1

  • 图1:Mowgli概述。

关于因子
在非负矩阵分解(NMF)中,因子是指分解后的矩阵中的列向量,它们代表了数据的特征或者隐藏的主题。每个因子可以看作是原始数据中的一种模式或结构,它们的组合可以近似地重构原始数据。

已知 H ( p ) H^{(p)} H(p)形状为 m p × k m_{p}\times k mp×k,列代表的就是因子,指定一种特定的模式,其中的值即为该模式的表达权重(得分)。

可解释方法

基因集合富集分析
gProfiler API是通过Scanpy来使用的。作者将每个因子的150个top基因用作gProfiler的无序输入。

Motif富集分析
Signac使用JASPAR2022 Motif数据库进行Motif富集分析。为了使峰值具有可比性,作者将矩阵 H ( a t a c ) H^{(atac)} H(atac)的行归一化为1。每个因子的前100个峰值被用作Signac的FindMotifs的输入。各因子的峰值组合构成了背景。

结果

Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性

作者根据MOFA+和integrative NMF的生物学可解释性对Mowgli进行了基准测试(见图4A)。MOFA+是领先的单细胞多组学整合工具,并提供了用户友好的生物学解释。与此同时,iNMF可被视为Mowgli的基线。
fig4ab

  • 图4A和B

对于这个基准,作者考虑了人类PBMCs的TEA-seq数据集,对应于scRNA-seq、scATACseq和表面蛋白的配对分析。该数据集允许我们在两个以上的组学数据集上测试方法,从而考虑到更多互补的分子调控层。

首先,分别使用MOFA+、integrative NMF和Mowgli对构成TEA-seq数据的三个组学进行整合。由于数据集未提供细胞注释,作者将Mowgli、integrative NMF和MOFA+获得的嵌入分别聚类,并基于基因和蛋白质marker进行注释(见图4B)。作者用这种方法鉴定了粗粒度免疫细胞类型:CD4 T细胞、CD8 T细胞、B细胞、自然杀伤(NK)细胞、MAIT T细胞、单核细胞(Monocytes)和红细胞(Erythroid cells)。值得注意的是,使用Mowgli、iNMF和MOFA+获得的细胞类型注释的一致性为94%,并且与通过Azimuth获得的独立的基于RNA的注释相匹配(见补充图3)。因此,这三种方法都能够通过对其嵌入的聚类恢复预期的细胞类型。
supfig3

  • 补充图3:注释一致性。

为了测试Mowgli、iNMF和MOFA+的生物学可解释性,作者评估了它们的factors与鉴定的免疫细胞类型之间关联的特异性。在此提出的基本假设是,一种可解释的方法应该提供并非在所有细胞中广泛活跃,但选择性地与细胞类型相关的因子。事实上,描述一种由多种因子组合而成的细胞类型是一项艰巨的任务。发现细胞类型特异性因子可以使相关细胞类型的生物学特性研究变得简单明了。

为了评估这种特异性,对于每种细胞类型,作者绘制了Mowgli、integrative NMF和MOFA+因子,根据它们在细胞类型内和细胞类型外的平均权重分布(图4C)。特定于细胞类型的factors应该在细胞类型内具有较高的平均权重,而在细胞类型外具有较低的平均权重,因此落在图的左上角。由于MOFA+的因子并不一定是阳性的,它们的阳性和阴性部分可能与不同的生物信息有关,作者将每个因子分成两部分,就像MOFA+的解释工具一样。此外,用特异性评分量化了每个因子的表现,也在图4C中用粗体进行了报道,并在方法部分细节中进行了定义
fig4c

  • 图4C:绘制了细胞类型内外的平均权重,分别为Mowgli(紫色)、MOFA+(红色为阴性部分,蓝色为阳性部分)和iNMF(橙色)。

如图4C所示,虽然MOFA+和iNMF倾向于将多个因子与同一细胞类型关联起来,但Mowgli经常定义因子与细胞类型之间明确的一对一关联。此外,这些因子在Mowgli中的特异性评分高于MOFA+和iNMF。其中MOFA+和iNMF似乎都聚集了来自许多因子的信息,而Mowgli更具选择性。值得注意的是,如补充图4所示,与相同细胞类型的MOFA+相关的多个因子并不一定对应于相同细胞类型的亚群。
supfig4

  • 补充图4:MOFA+的因子表达

Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

最后,作者将重点放在Mowgli在人类PBMC TEA-seq数据上确定的因子的生物学相关性上,如前一节所述。在上一节中,只考虑了粗糙的免疫细胞类型(例如B细胞、CD4 t细胞、CD8 t细胞),Mowgli可以识别出能够将这些细胞类型划分为相关亚群的多种因子,例如,Mowgli确定了将B细胞群分成两个亚群(记忆B细胞和幼稚B细胞)的因子(图5A和B)。

以同样的方式,Mowgli检测与CD8 T细胞亚群(幼稚,中枢记忆和效应记忆),单核细胞亚群(经典和非经典),树突状细胞亚群(浆细胞样细胞和传统)和自然杀伤细胞(NK)亚群(CD56dim和CD56bright)相关的因子。这些因子与特定免疫亚群的关联是基于效应记忆CD8 T细胞、幼稚B细胞、记忆B细胞和CD56dim NK细胞中排名靠前的基因和蛋白质。图5B并排显示了UMAP图,显示了因子与其相关免疫亚群的蛋白质marker活性之间的相似性。
fig5ab

  • 图5A和B:,重点关注四个特定免疫亚群(效应记忆CD8 T细胞,记忆B细胞,CD56dim NK细胞,naive B细胞)。

由于在上一节中观察到MOFA+具有较低的生物学可解释性。因此,例如用MOFA+解释与CD56bright NK细胞相关的pathway,将需要复杂地结合从不同因子获得的pathway富集。相反,在Mowgli,同样的分析可以很容易地通过观察其第13个因子的富集pathway来实现。

最后,作者研究了Mowgli可以提供的关于已确定的免疫亚群的生物学信息。在这一部分中,重点研究了与四种免疫细胞亚群相关的因子:效应记忆CD8 t细胞(因子49)、幼稚B细胞(因子33)、记忆B细胞(因子44)和CD56dim NK细胞(因子2)。对于这四个因子,作者考虑了在 H ( r n a ) , H ( a d t ) , H ( a t a c ) H^{(rna)},H^{(adt)},H^{(atac)} H(rna),H(adt),H(atac)中的相关负载,并分析了top genes,top protein,富集基因集,富集基序。图5C为结果。
fig5c

  • 图5C:图5A中显示的4个因子的top基因、top蛋白质、基因集和转录因子(tf)。星号表示与该因子和靶向top基因的tf相关的免疫亚群相关的基因集和marker。

对于效应记忆CD8 T细胞(CD8 TEM细胞),对应于因子49,Mowgli可以提取两个top基因(CRTAM和KLRK1),已知对CD8+T细胞介导的细胞毒性至关重要,两个top蛋白(CD45RO, TCR-a/b)分别是已知的记忆T细胞标记物和T细胞受体。更有趣的是,还确定了该亚群的几个转录因子TF,其中包括EOMES和TBX21(又名T-bet),已知它们对CD8 TEM发育很重要。此外,5个候选TF调控因子(TBR1、TBX21、TBX4、TBX5和MGA)靶向同一因子的3个top基因(CCL5、CRTAM和IL21R),这表明调控程序可能对CD8 TEM细胞很重要。

还有其余细胞类型的分析,这里不再叙述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/843509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android studion 一直编译失败

无外网,无法下载对应的库导致编译失败 配置代理 1.修改镜像源 资源路径 为国内镜像 如下为国美腾讯软件镜像 distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-8.6-bin.zip 2.构建仓储失败 无法下载。 添加国内仓储如下位置,重新…

SAP MM模块后台配置(下)

3.10 采购订单的审批过程 配置路径 IMG->物料管理-采购-采购订单-审批过程-含分类的过程 事务代码 SPRO 配置请求号 配置描述:我们用这个配置来进行九牧集团用到的采购订单的审批策略的定义: 配置屏幕: …

Jmeter元件及基本作用域

🚀从今天开始学习性能测试工具——Jmeter,小梦也是先学习了下Jmeter的元件概念以及其基本的作用域,整理了下笔记,希望不管是从事开发领域还是测试领域的朋友们,我们一起学习下Jmeter工具,提升工作中的技能&…

【软考】下篇 第12章 信息系统架构设计理论与实践

目录 一、信息系统架构的定义二、信息系统架构风格三、信息系统架构分类四、信息系统常用的4种架构模型(SCSB)五、企业信息系统的总体框架ISA六、TOGAF & ADM七、信息化总体架构方法信息化六要素信息化架构模式信息系统生命周期(规分设实…

7个靠谱的副业赚钱方法,宝妈,上班族,学生党可以做的兼职副业

你是否也曾面临过这样的困境:生活费紧张,想要找份兼职来补贴家用或是满足自己的小心愿?别担心,今天我将带领你踏入这个丰富多彩的兼职世界,助你轻松达成月入过千的小目标! 在我漫长的兼职探索旅程中&#…

【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架

【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架 信息概览与提炼采用的数据与结果数据集结果概览一眼 重点图与方法概览核心与优劣总结模型与实验论文方法E2E的理解E2N的理解N2G的理解三个卷积层设计的理解 论文实验与讨论 总结与…

力扣232. 用栈实现队列(两栈实现队列)

Problem: 232. 用栈实现队列 文章目录 题目描述思路Code 题目描述 思路 利用两个栈,一个入栈一个出栈搭配着实现队列的相关操作: 1.创建两个栈stack1和stack2; 2.void push(int x):将要入队的元素先入栈stack1; 3.int pop()&…

倒计时 1 天!「飞天技术沙龙-CentOS 迁移替换专场」演讲亮点一览

各位开发者们: 「飞天技术沙龙 - CentOS 迁移替换专场」即将于本周三在北京召开!昨天,小龙为参会者公布了详细参会指南,今天带大家了解各演讲内容亮点。 活动时间:5 月 29 日(本周三) 13:30-17…

pod容器基础概念

一 Pod基础概念: ①Pod是kubernetes中最小的资源管理组件,Pod也是最小化运行容器化应用的资源对象。一个 Pod代表着集群中运行的一个进程。一个pod包含一个或多个容器。如:应用容器/业务容器(淘 宝、京东、拼多多后台&#xff…

水电自动抄表系统是什么?

1.简述:水电自动抄表系统 水电自动抄表系统是一种现代化计量检定解决方法,为提升公用事业服务项目的效率和精确性。传统式手动抄水表方法已经被这类高效率、精准的自动化系统所替代,它能够实时、远程控制地收集解决水电使用数据。 2.系统原…

国产性能怪兽——香橙派AI Pro(8T)上手体验报告以及性能评测

目录 1、引言2、性能参数3、开箱体验4、实际使用5、性能比较总结参考文章 1、引言 第一次接触香橙派的开发板,之前使用过Arduino、树莓派3B、树莓派4B,STM32,51单片机,没有想到国产品牌性能一样强劲,使用起来也是很方便…

Llama 3 模型家族构建安全可信赖企业级AI应用之使用 Llama Guard 保护大模型对话 (八)

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…

鸿蒙开发接口图形图像:【@ohos.screen (屏幕)】

屏幕 本模块提供管理屏幕的一些基础能力,包括获取屏幕对象,监听屏幕变化,创建和销毁虚拟屏幕等。 说明:开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。…

LBank研究院: DePIN赛道解析|加密精神与Jevons悖论的第三世界

作者:Eva,LBank研究员 *本人谨代表作者观点,不构成任何交易建议。 *本文内容为原创,版权为LBank所有,如需转载请注明作者和出处,否则将追究法律责任。 TLDR: DePIN是对传统老牌硬件的洗牌挑战&#xff…

节水“云”科普丨北京昌平VR节水云展馆精彩上线

2024年5月15日上午,由北京昌平区水务局主办的“推进城市节水,建设美丽昌平——2024年全国城市节约用水宣传周暨‘坚持节水优先 树立节水标杆’昌平节水在行动主题实践活动”隆重举办,活动期间,昌平区水务局应用VR虚拟现实技术创新…

你什么时候感觉学明白Java了?

学是学不明白Java的,要学明白Java,一定只能在工作以后。 1 在学习阶段,哪怕是借鉴别人的学习路线,其实依然会学很多不必要的技能,比如jsp,swing,或者多线程,或者设计模式。 2 或者…

php 变量值传递和引用传递

一、值传递和引用传递 二、在foreach 中的引用传递 public function actionR(){$a [a>1,b>2,];foreach ($a as &$item){$i 100;$item $i;}$b [a>1,b>2];foreach ($b as &$item){$i 99;$item $i;}var_dump($a,$b);}可见 在两个foreach 中&$item …

md5强弱碰撞

一,类型。 1.弱比较 php中的""和""在进行比较时,数字和字符串比较或者涉及到数字内容的字符串,则字符串会被转换为数值并且比较按照数值来进行。按照此理,我们可以上传md5编码后是0e的字符串,在…

nginx流量监控:goAccess安装与使用

关于goAccess GoAccess 是一款实时、快速的日志分析工具,专门设计用于分析Web服务器日志,特别是Nginx日志。 安装 (1)准备相关依赖 # Missing development libraries for ncursesw # centOS yum install -y ncurses-devel # U…

算法002:复写零

力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/duplicate-zeros/ 使用 双指针 来解题: 具体思路 如果是和00…