scButterfly:单细胞跨模态翻译

技术限制导致了高噪声的多模态数据。尽管已经提出了计算方法来跨模态翻译单细胞数据,但是这些方法的泛化性仍然受到制约。scButterfly是一种基于双重对齐变分自编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集进行全面的实验,证明了scButterfly在保留细胞异质性、同时翻译不同上下文的数据集以及揭示特定细胞类型的生物学见解方面优于基线方法。此外,scButterfly还可以推广到未配对数据训练、扰动-响应分析,连续翻译等。

来自:scButterfly: a versatile single-cell crossmodality translation method via dualaligned variational autoencoders

目录

  • 方法概述
  • 结果
    • 保持细胞异质性的同时跨模态翻译
    • scButterfly有效地翻译了新环境的数据并揭示了生物学的见解
    • scButterfly可以推广到非配对数据训练和扰动分析

方法概述

fig1
上图为模型概述,以转录组和染色质图谱之间的翻译为例说明。

a. scButterfly使用相应的常规策略预处理每种模态的数据,以模态特定的方式预训练编码器和解码器,并基于预训练参数对配对的多模态数据进行训练。

b. 基本的scButterfly模型(scButterfly-B)包括两个编码器,用于将预处理的数据投影到模态特定的潜在空间;一个翻译器,用于在不同模态之间进行翻译,并利用潜在空间中的多变量高斯分布在每个模态内进行映射;两个模态特定的判别器,用于区分翻译前后的潜在细胞嵌入,并实现对抗训练;以及两个解码器,用于使用翻译器翻译或映射的嵌入重建每个模态的原始高维细胞表示。作者为编码器引入了一种掩码策略,以减轻dropout事件的噪音影响,并修剪染色质图谱的编码器和解码器的染色体间连接,以减轻计算负担,并专注于染色体内的生物模式。

c. scButterfly的数据增强策略,适用于训练集有细胞类型标签的情景。作者通过随机配对同一类型细胞的转录组图谱和染色质图谱生成样本,得到的变体称为scButterfly-T(Type)。

d. scButterfly的数据增强策略,适用于训练集没有注释的更通用情景。作者进行综合分析以对训练集中的细胞进行聚类,并通过根据聚类标签随机配对生成样本,得到的变体称为scButterfly-C(Cluster)。

结果

保持细胞异质性的同时跨模态翻译

首先使用骨髓单核细胞的广泛配对RNA和ATAC-seq数据(称为BMMC数据集)作为概念验证,展示scButterfly的有效性。BMMC数据集作为一个综合的多模态基准数据集,包含来自4个site和10个不同供体的13个batch中的超过69,000个细胞。作者进行了五折交叉验证实验,通过将所有细胞随机分成五折,并迭代地使用训练模型将每折中的细胞染色质图谱翻译为转录组图谱,反之亦然。为了测试翻译后的图谱是否包含生物学上可解释的细胞异质性,作者通过各种下游分析任务(即降维、细胞聚类、差异表达和可及性分析等)评估了翻译性能。作者将scButterfly的性能与默认设置的BABEL、Polarbear和JAMIE进行了比较。以第一个测试fold为例,scButterfly从ATAC图谱翻译的RNA图谱可以有效地剖析细胞异质性,如t-SNE可视化所示(图2a)。具体来说,scButterfly的所有三种变体,包括基本模型(scButterfly-B),以及基于综合聚类(scButterfly-C)或训练集中的细胞类型标签(scButterfly-T)的数据增强模型,都能够区分红细胞生成的阶段,即前红细胞、正红细胞和红细胞(用红框标出),而BABEL和Polarbear这两种转录组和染色质图谱之间翻译的最新方法未能表征这三种重要的细胞类型。需要注意的是,JAMIE在BMMC数据集上由于超过了GPU内存限制(48GB,NVIDIA RTX A6000)而遇到了错误。
fig2
此外,注意到,scButterfly的所有三种变体都成功识别了CD14+单核细胞和CD16+单核细胞(用蓝框标出),这些在原始scATAC-seq数据中几乎难以剖析,表明scButterfly在将测试数据从一种模态翻译到另一种模态时,能够充分利用训练集中多模态的信息。

同样,scButterfly从RNA图谱翻译的ATAC图谱也很好地保留了细胞异质性(图2a)。例如,使用scButterfly预测的ATAC图谱,我们可以有效地捕捉到过渡性B细胞、淋巴前体、初始CD20+B细胞和B1 B细胞(用紫框标出),而BABEL预测的ATAC图谱甚至原始染色质图谱都几乎难以区分B1 B细胞和初始CD20+B细胞,Polarbear在这种情况下表现出不足的翻译能力。总体而言,scButterfly翻译的图谱能够熟练地表征细胞间的差异,并有潜力减少原始模态中的噪音,促进细胞类型的识别。

为了定量展示scButterfly在跨模态翻译中的优势,作者进一步基于翻译图谱的降维结果进行细胞聚类,并按照现有参考文献建议的调整互信息(AMI)、调整兰德指数(ARI)、同质性得分(HOM)和归一化互信息(NMI)评估翻译性能。交叉验证实验中每折的聚类性能再次表明,scButterfly在跨模态翻译中显著优于基线方法,同时保留了细胞异质性(补充图1、2-细胞配对数据上训练)。

此外,作者收集了六个附加数据集,这些数据集中包含了配对的RNA和ATAC数据,包括使用SNARE-seq4技术从成年小鼠大脑皮层获取的MCC数据集、使用SHARE-seq2技术从成年小鼠大脑获取的MB数据集、使用10x-Multiome技术分析的外周血单个核细胞(PBMC)数据集、使用sci-CAR3技术从成年小鼠肾脏获取的MK数据集、使用scCAT-seq5技术从多个细胞系分析的CL数据集以及使用SHARE-seq2技术从成年小鼠背部皮肤获取的MDS数据集,以进一步全面评估scButterfly的性能(补充图3)。如图2b和补充图4所示,scButterfly-B在跨模态翻译的两个方向上都比基线方法表现更好,并且有效地表征了细胞异质性,特别是在从转录组到表观基因组的翻译中。


重点:本小节关注的应该是图2b,这是评估模态翻译的benchmark


scButterfly有效地翻译了新环境的数据并揭示了生物学的见解

考虑到待翻译的谱系可能来自于与训练集不同的生物背景,并包含新颖的细胞类型,作者进一步评估了各方法在跨模态翻译新颖细胞类型时的性能。具体做法是,通过细胞类型随机将细胞数据分成三折,进行交叉验证实验。也就是说,测试集中的细胞类型与训练集中的细胞类型之间没有交集。作者使用了四个单批次数据集(MB、MCC、MK和PBMC)进行评估。正如图3a所示,在这种具有挑战性的样本外翻译中,与常规交叉验证实验(图2b)相比,所有方法的整体性能均大幅下降,这符合预期,因为大多数机器学习方法的共同限制是:测试样本如果与训练集偏离过大,往往表现出较差的预测性能。即便如此,对于新颖细胞类型的跨模态翻译,scButterfly的三种变体在从ATAC谱系推断RNA表达或反方向翻译方面均优于其他方法(图3a),这表明scButterfly能够有效识别不同生物背景下细胞之间的复杂关系,而不仅仅是简单记忆训练中见过的类似细胞。
fig3_1
鉴于批次效应的技术变化可能构成跨模态翻译的障碍,作者接下来考虑了一个更普遍的挑战。作者使用了三个多批次数据集(BMMC、CL 和 MDS),通过随机将细胞按批次分组,进行了四倍交叉验证。具体而言,在来自一个批次(MDS 和 CL 数据集)或site(BMMC 数据集)的数据上进行翻译,同时在其余批次或site上训练模型,以确保训练和测试数据集包含完全不同的批次。如图 3b,scButterfly 的性能优于基线方法。

需要注意的是,JAMIE 在 BMMC 数据集上再次遇到了内存错误。此外,结果再次说明了利用数据增强来帮助预测跨模态概况的整体效用。以 BMMC 数据集中的第一个测试折为例,scButterfly 不仅可以保留数据中微妙的细胞类型进行转换,还可以利用不同模态之间学到的生物关系来减轻噪声的影响,并确定在翻译前通过原始数据很难区分的细胞类型(图 3c)。例如,利用从染色质翻译的转录组,scButterfly 的三个变体成功区分了红细胞生成的阶段(用红色方框标记),并确定了通过原始 scATAC-seq 数据很难分离的 CD14+ 单核细胞和 CD16+ 单核细胞(用蓝色方框标记),而 BABEL 和 Polarbear 仅适度地分离了这些细胞类型,再次表明了 scButterfly 在这种跨模态翻译场景中的优势。

有趣的是,可以注意到 scButterfly-C 预测的 RNA 具有识别细胞亚型并提供对已识别的细胞亚群功能洞见的潜力。具体来说,在 MDS 数据集上,按批次进行了四倍交叉验证,并以第一个测试折中的细胞为例进行了说明,该折仅来自单个批次。预测的RNA将基底细胞分为两组,而使用原始RNA概况在 t-SNE 可视化中解剖basal细胞是困难的(见图3d)。然后,作者在预测的RNA概况上使用默认分辨率执行 Leiden 聚类,并根据聚类结果和表达模式确定了两个基底细胞亚组(预测的基底1和2),并且在这两个亚组之间及预测的RNA的两个亚组之间有56.850%的细胞一一对应(见图3e)。
fig3_2

scButterfly可以推广到非配对数据训练和扰动分析

大部分跨模态翻译方法都假设每种模态的训练样本是充分和完整的。然而,在普遍的应用中,这种假设并不总是成立,对于不在同一细胞中进行联合分析的不成对数据的对角线分析被认为比配对数据的分析更具挑战性。

作者收集了八个不配对的转录组和染色质数据集,包括从成年人肾脏中提取的UP_HK数据集,从小鼠主要运动皮层中提取的UP_MPMC数据集,以及从不同人类胎儿器官中提取的六个数据集(UP_eye、UP_muscle、UP_pancreas、UP_spleen、UP_stomach、UP_thymus)。作者进行了五倍交叉验证,以测试scButterfly对不配对数据的普适性。具体来说,通过随机将一个细胞的RNA谱与训练集中同一细胞类型的另一个细胞的ATAC谱进行配对构建成对的训练样本。

对于多批次数据集,作者直接将来自不同批次的数据进行配对,而不进行批次校正,并通过用伪配对样本训练方法来获得BABEL-T、Polarbear-T、JAMIE-T和scButterfly-T的模型。注意,除了UP_HK数据集外,JAMIE在所有数据集上都遇到了GPU内存错误。如图4f所示,无论是预测的转录组谱还是预测的染色质谱,scButterfly都实现了显著更高的细胞簇聚类表现。
fig4f
接下来,作者测试scButterfly是否可以推广到跨器官翻译。作者采用整个不配对的UP_stomach数据集作为训练集,使用与上述相同的训练策略,并分别在整个UP_pancreas和UP_spleen数据集上评估性能。如图4g所示,与上述器官内部的五倍交叉验证的性能相比,跨器官翻译的性能表现出明显的劣势,这可以归因于不同器官之间生物学背景的显著变化。尽管如此,可以注意到scButterfly再次在这个极具挑战性的任务中始终表现优异,进一步强调了scButterfly在跨器官翻译中的潜力和普适性。
fig4g
作者进一步研究了 scButterfly 在单细胞扰动-响应预测方面的潜力。扰动响应筛选能够探索对不同扰动的分子和表型响应,阐明控制生物过程的基本机制。尽管如此,获取受扰动的细胞在许多情况下往往是一个重大挑战。

因此,扰动响应的生成建模可以扩展计算机实验的能力。由于细胞通常在测量过程中被破坏,这会导致生成包含受扰动和不受扰动的细胞的非配对分布,因此单细胞扰动响应预测任务需要非配对数据训练。作者使用了 scGen 和 scPreGAN(两种最先进的方法)使用的 PT_PBMC 数据集作为概念证明,以证明 scButterfly 在扰动分析中的有效性。PT_PBMC数据集包括七种细胞类型的对照和干扰素β刺激的人外周血单核细胞。作者将对照和刺激细胞的转录组谱视为两种模态,并提出一种基于最优传输的策略来匹配两组细胞以生成配对训练样本,因为这两种模态通常表现出显著的生物学差异,而这些差异在前述非配对的单细胞多组学数据中是不存在的。具体而言,作者利用最优传输通过最小化每种细胞类型的对照和刺激细胞之间的距离来获得最优耦合矩阵,为每个对照细胞选择权重最大的刺激细胞,最终将这两个细胞匹配为配对训练样本。
fig4h

根据现有研究,作者评估了挑战性的样本外预测性能,该预测使用一个细胞类型的数据进行测试,并使用其余细胞类型的数据进行训练,类似于前述的对新细胞类型的跨模态翻译。作者采用了现有研究中普遍使用的两个指标来评估性能。如图4h所示,对照数据和真实刺激数据之间的前100个(真实)差异表达基因(DEGs)与控制数据和scButterfly预测的刺激数据之间的前100个(预测)DEGs之间的共同DEGs的数量明显超过了最先进方法的数量。此外,作者随机采样了80%的测试数据,并进行了100次替换,并计算了预测和真实刺激数据之间前100个(真实)DEGs的基因表达均值的平方皮尔逊相关系数(R2)。结果表明,由scButterfly-B预测的转录组谱与不同细胞类型的真实情况具有良好的相关性(每种细胞类型的平均R2一致超过0.85),scButterfly-B实现了整体最佳性能(图4h),阐明了scButterfly在单细胞干扰性研究中的潜在潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/20390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工业安全智勇较量,赛宁网安工业靶场决胜工业网络攻防对抗新战场

2024年1月30日,工信部发布《工业控制系统网络安全防护指南》(工信部网安〔2024〕14号),围绕安全管理、技术防护、安全运营、责任落实四方面提出安全防护要求,强调聚焦安全薄弱关键环节,强化技术应对策略&am…

关于磁盘管理

磁盘管理是操作系统提供的一项功能,用于高效地组织、维护和控制计算机的硬盘驱动器及其卷(分区)。通过磁盘管理工具,用户和管理员可以执行多种与存储相关的高级任务,主要包括: 初始化新磁盘: …

js前端怎么封装

js前端怎么封装 在JavaScript前端开发中,封装是一个至关重要的概念。通过封装,我们可以将复杂的逻辑和功能隐藏在简单的接口后面,提高代码的可读性、可维护性和复用性。那么,如何有效地在JavaScript前端进行封装呢?接…

Passion编程语言:探索其深邃的四个维度、五大特性、六大应用及七大前景

Passion编程语言:探索其深邃的四个维度、五大特性、六大应用及七大前景 在编程的浩瀚宇宙中,Passion编程语言如同一颗璀璨的新星,以其独特的魅力和深厚的内涵吸引着越来越多的探索者。本文将从四个方面、五个方面、六个方面和七个方面&#…

Caliburn.Micro框架学习笔记——窗体管理对象的基本使用

Caliburn.Micro 的窗口管理器(Window Manager)是一个强大的工具,用于管理 WPF 应用程序中的窗口和对话框。它简化了窗口的创建、显示和关闭等操作,使得视图和视图模型的交互更加直观和易于维护。 它能够实现的功能包括 显示窗口&…

大学生社团活动平台系统基于springboot+vue的社团管理系统java项目sprignboot项目

文章目录 大学生社团活动平台一、项目介绍二、部分功能截图三、部分代码展示四、底部获取项目源码(9.9¥带走) 大学生社团活动平台 一、项目介绍 基于springbootvue的前后端分离大学生社团活动平台 系统角色 : 学生、社长、管理员 1、学生…

pytorch笔记:topk

1 介绍 返回给定输入张量沿指定维度的最大的 k 个元素 如果没有指定 dim 参数,则默认选择输入张量的最后一个维度如果 largest 设置为 False,则返回最小的 k 个元素。返回一个命名元组 (values, indices),其中包含每一行在指定维度 dim 上最…

Frida

配置环境 查看ubuntu版本 cat /etc/lsb-release设置时区 dpkg-reconfigure tzdataadb adb:(Android Debug Bridge)是一个用于在计算机和Android设备之间进行通信的命令行工具。它允许开发人员在计算机上执行各种命令,如安装应…

Git配置SSH-Key

git config --global user.name 沈健 git config --global user.email sjshenjianoutlook.com初次使用 SSH 协议进行代码克隆、推送等操作时,需按下述提示完成 SSH 配置 1 生成 RSA 密钥 ssh-keygen -t rsa2. 获取 RSA 公钥内容,并配置到 SSH公钥 中 …

FENDI CLUB精酿啤酒中原麦汁浓度的高低有何区别?

关于精酿啤酒,有两个关键数据,一个是原麦汁浓度,一个是酒精度。酒精度无非是含酒精的高低,但原麦汁浓度又是什么呢?另外精酿啤酒中原麦汁浓度有高有低,究竟有哪些区别呢? 原麦汁浓度是指啤…

c语言是编程软件还是编程语言?深入解析C语言的本质与定位

c语言是编程软件还是编程语言?深入解析C语言的本质与定位 在科技日新月异的今天,编程语言和编程软件在软件开发中扮演着举足轻重的角色。然而,对于初学者来说,这两者之间的界限往往模糊不清,尤其是对于像C语言这样的经…

息壤,让全网算力随愿可得

【全球云观察 | 科技热点关注】 当下的AIGC时代,算力领域面临的最大挑战是什么? 对于这个问题,仁者见仁,智者见智。但答案中最吸引业界眼球的莫过于,算力调度。为什么呢? 「因时而生」&#xf…

2006NOIP普及组真题 4. 数列

线上OJ: 【06NOIP普及组】数列 思考: 这道题大概率是一道可以使用“瞪眼法”找到规律的题目。我们尝试把数据补充的更多,以便于寻找规律 当 k3 时,k的幂次为1, 3, 9, 27, 81… 从上述推理中,我们发现要输出的幂次和中…

Flutter课程分享 -(系统课程 基础 -> 进阶 -> 实战 仿京东商城)

前言 在移动应用开发的世界中,Flutter 作为一款由 Google 推出的开源 UI 软件开发工具包,正迅速赢得开发者们的青睐。其跨平台、高性能、丰富的组件库以及易于学习的特性,使得 Flutter 成为许多开发者的不二选择。然而,对于初学者…

anaconda python 版本对应关系

如何创建python版本的虚拟环境 conda create -n d2l python3.5输入如下命令即可进入虚拟环境 activate d2lanaconda3版本基础python版本Anaconda3-2024.02-1Python 3.11.7Anaconda3-2023.09-0Python 3.11.5Anaconda3-2023.07-2Python 3.11.4Anaconda3-2023.07-1Python 3.11.3…

纯js仿淘宝多图片封面图插件模板/带视频,带放大镜,带前后端完整代码PHP

功能预览,他依赖jq插件,请自已引入 类似这样 <script type"text/javascript" src"/Application/Admin/Static/js/jquery-2.0.3.min.js"></script>一,前端模板代码 <!--多图功能--><style> charset "utf-8"; .wrap_imgs…

Javaweb基础之工程路径

大家好&#xff0c;这里是教授.F 引入&#xff1a; 工程路径有一个知识点需要注意&#xff1a;就是相对路径。所谓相对路径就是依赖当前位置&#xff1a; 相对路径的定位依赖于当前位置或参考位置。 使用相对路径来解决&#xff0c; 一个非常重要的规则&#xff1a;页面所有的…

H6922 2.8C-40V (最低启动电压2.5V)升压BOOST恒压芯片 5V12V24V升压IC

H6922升压BOOST恒压芯片是一款2.8C-40V &#xff08;最低启动电压2.5V&#xff09;升压BOOST恒压芯片 5V12V24V升压IC 首先&#xff0c;H6922的宽输入电压范围&#xff08;2.8-40V&#xff09;和低启动电压&#xff08;最低2.5V&#xff09;使其能够适应不同复杂的电源环境。无…

[书生·浦语大模型实战营]——训练自己的小助手认知+应用部署到 OpenXLab+复现多模态微调

1.训练自己的小助手认知 微调后的回答&#xff1a; 微调前的回答&#xff1a; 2.应用部署到 OpenXLab 上传的自我认知模型 应用部署在OpenXLab&#xff08;比上次部署方便不少&#xff0c;文档写的更清楚了&#xff0c;棒棒&#xff09;,链接如下应用链接 3.复现多模态…

普通人想自学Python?没弄清楚这些,我劝你还是算了吧......

自学Python&#xff0c;为何你值得一试&#xff1f; 在这个瞬息万变的时代&#xff0c;我们常常听到这样的声音&#xff1a;“自学Python&#xff1f;一般人我还是劝你算了吧。” 这样的言论&#xff0c;仿佛是一堵高墙&#xff0c;阻挡着那些怀揣梦想、渴望探索的普通人。然…