SEACells:元细胞分析

元细胞是从单细胞测序数据中衍生的细胞分组,代表高度精细的不同细胞状态。在这里,作者介绍了单细胞细胞状态聚集 (SEACells),这是一种用于识别元细胞的算法,它克服了单细胞数据的稀疏性,同时保留了传统细胞聚类所掩盖的异质性。SEACells 在识别 RNA 和ATAC模态分析中的全面、紧凑且分离良好的元细胞表现上优于现有算法,作者展示了如何使用 SEACells 来改善gene-peak关联、计算 ATAC 基因分数并推断分化过程中关键regulators的活动。元细胞级分析可扩展到大型数据集。作者利用元细胞揭示造血分化过程中染色质景观的表达动态,并唯一地识别与 2019 年冠状病毒病 (COVID-19) 患者群体中的疾病发作和严重程度相关的 CD4 T 细胞分化和活化状态。

来自:SEACells infers transcriptional and epigenomic cellular states from single-cell genomics data

目录

  • 方法概述
  • 实验
    • SEACells元细胞代表准确和稳健的细胞状态
    • SEACell促进的调控推断
  • 方法
    • SEACells
    • Toolkit for ATAC
      • Peak calling
      • Peak-gene关联和gene score
      • 推断TF活性

方法概述

SEACells 力图将单个细胞聚合成代表不同细胞状态的元细胞,这种方式与数据模态无关。使用计数矩阵作为输入,它为每个元细胞提供每个细胞的权重、每个元细胞的硬分配以及每个元细胞的聚合计数作为输出。SEACells可以捕获数据中的全部细胞状态,包括较罕见的状态。基于几个关键假设建立了 SEACells:(1) 单细胞分析数据可以用低维流形(表型流形)来近似;(2) 观察到的细胞间变异性大部分是由于采样不完整造成的;(3) 大多数细胞可以分配到一组有限的细胞状态,每个状态都以不同的活性基因调控程序组合为特征。

SEACells 利用基于图的流形学习算法,该算法已被证明能够忠实而稳健地捕捉单细胞基因组数据中的细胞状态图。该算法首先构建一个表示表型流形的最近邻图。然后,它应用原型分析迭代细化元细胞。最后,它将计数聚合到一组输出元细胞中。流形构造针对每种数据模态定制,之后算法可以以与数据类型无关的方式进行。作者使用来自早期人类造血的 CD34+ 细胞来演示方法(图 1)。使用最小-最大采样进行初始化,它识别出一组均匀分布在表型流形中的代表性细胞状态(图 1e),并且特别擅长处理密度差异,从而确保捕获稀有状态。这些采样细胞是waypoints(每种细胞类型有多个),它们在邻居图中定义清晰的结构;然而,细胞状态本身仍然有些分散(图 1f)。

为了细化元细胞,作者采用了核原型分析-kernel archetypal analysis(图 1g)。原型分析-archetypal analysis是一种稳健的矩阵分解技术,已应用于数据矩阵,以识别细胞表型空间边界处的极端细胞状态。相反,作者将原型分析应用于细胞间相似性核矩阵。该核将细胞投影到更高维空间中,其中两个细胞只有当它们共享邻居并且与共享邻居的距离相似时才相似。这种转换所施加的更严格的相似性条件将高度相似的细胞投射到微小的簇中,使得核空间中的原型成为每个独特细胞状态的良好代表。因此,核原型分析将细胞划分为高度相似的细胞的紧密簇(图 1g),沿细胞-细胞相似性矩阵的对角线赋予紧密的块,这些块代表不同的细胞状态(图 1h)。
fig1

  • 图1:a,6,800 个 CD34+ 分类的造血干细胞和祖细胞 (HSPC) 的 scRNA-seq UMAP。细胞按簇着色。b,每个簇的轮廓图突出显示密度并表明每个簇内存在多种细胞状态。插图:基因-基因协方差矩阵显示每个状态包含多个不同的基因表达程序。c,左:UMAP 表示 MEP(巨核细胞-红细胞祖细胞)簇。右:当 MEP 簇根据发育进程分为三个大小相等的箱体时(顶部,G1 到 G3),它反映了 GATA2(已知的 MEP 谱系驱动因素)的推断表达(底部)。d,覆盖图显示所有 MEP(顶部)、单个 MEP 细胞(底部)和 c 中的三个箱体中的 GATA2 可访问性。右:相应细胞中的 GATA2 表达。突出显示的峰值展示了可访问性动态如何跟踪表达动态。有关动态的信息在簇级别被掩盖,而单个细胞中的峰值识别太嘈杂。e,UMAP 与 a 中的一样,按细胞类型着色。用于元细胞识别的 SEACells 算法由waypoints(大红色圆圈)初始化,waypoints是采样以均匀覆盖表型景观的细胞子集。f,使用自适应高斯核计算的细胞间亲和力矩阵。g,核原型分析示意图。核矩阵分解为原型矩阵 B 和嵌入矩阵 A。根据矩阵 A 上的逐列最大值来识别元细胞成员资格。插图:核原型分析将细胞划分为高度相似的细胞簇,使其非常适合识别稳健的细胞状态。h,左:来自 f 的细胞-细胞亲和力矩阵,但按元细胞分配排序(到这里,体现出用于发现罕见簇的潜力)。右:覆盖来自 e 的 UMAP 的轮廓图,突出显示元细胞的分布;细胞和轮廓通过元细胞分配来着色。

实验

SEACells元细胞代表准确和稳健的细胞状态

作者首先在 10x Genomics 的外周血单核细胞 (PBMC) 公共多组学 (同时进行 scRNA-seq 和 ATAC-seq) 数据集上评估了 SEACells 的性能,这是一个经过充分研究的系统,具有不同的细胞群体。可以发现 SEACells 元细胞全面,在细胞类型中分布良好 (图 2a、b)。

元细胞有助于克服稀疏性,数据稀疏性在 scATAC-seq 中非常严重。作者发现每个 SEACells 元细胞都比单个细胞提供了更完整的分子表征——例如,通过揭示主要细胞类型已知marker基因的可及性。元细胞(但不是大多数单个细胞)的可及性和表达可以准确区分淋巴亚群(图 2c )。因此,元细胞的粒度足以区分细胞类型内的状态;并且可以使用经典免疫marker进行查询。
fig2

  • 图2:a、(i) 使用 RNA 数据得出的 10x Genomics 多组学数据集中人类 PBMCs 的 UMAP,突出显示细胞类型和 SEACells 元细胞。(ii) RNA 模态下每种细胞类型的元细胞分布。(iii) 细胞类型纯度分布(每种元细胞中最具代表性的细胞类型的频率)。高纯度代表更准确的元细胞。b、与 a 中一样,使用来自多组学数据集的 ATAC 数据得出人类 PBMCs 的 UMAP、元细胞和细胞类型纯度分布。c、CD4 和 CD8A 的元细胞可及性 (i) 和表达 (iii) 准确区分 CD8(绿色)和 CD4(橙色)T 细胞。TYROBP 和 CD8A 的元细胞可及性 (ii) 和表达 (iv) 区分 NK(棕色)和 CD8(绿色)T 细胞。插图:相应的单细胞可及性太稀疏,无法实现相同的区分。

元细胞的意义:获得一个新的细胞数据,这个数据不稀疏,并且保留了原有的异质性


SEACell促进的调控推断

可以通过识别 ATAC-seq 读取计数峰值内的假定转录因子 (TF) 结合基序来推断基因调控,这些基序代表开放或可访问的染色质区域。scATAC-seq 提供了许多观测结果(细胞),能以精细分辨率推断更复杂的基因调控模型,但数据稀疏性严重限制了其实用性。SEACells 元细胞能克服稀疏性,从而实现各种基因调控推断任务。

典型的 SEACells 元细胞包含 120 万个读数,与单个细胞中的 25,000 个读数相比有显著改善,但仍远少于典型bulk样本中的 5000 万个读数。为了提高 ATAC 峰值调用中的信噪比,作者利用了 ATAC-seq 片段长度分布(一种表示方式),其中第一和第二模式分别代表无核小体 (NFR) 片段(可能富含 TF 结合事件)和核小体。

调控推断的下一个任务是将每个基因与调控它的元素关联起来。跨细胞的可及性和表达之间的相关性已被用于预测scRNA-seq 和 scATAC-seq 中调控每个基因的峰集,但数据稀疏阻碍了单细胞水平上的稳健性。使用来自 CD34+ 骨髓 ATAC 数据中的 SEACells 元细胞,作者计算了核心造血基因集中每个基因 ±100 kb 范围内每个 NFR 峰的基因表达与可及性之间的相关性 。使用 ATAC 元细胞的最相关峰的可及性跟踪基因表达,与单细胞数据相比有了显着改善(图 3a)。例如,关键的红系谱系调节剂TAL1的峰值可及性与元细胞中表达之间的相关性为0.82,而在单细胞水平上的相关性为0.03(图3a)。

对于关键的红细胞因子 GATA2,单细胞数据仅恢复了使用元细胞检测到的 11 个关联中的2个(图 3b)。为了系统地探索预测的peak-gene关联的准确性,作者通过汇总所有显着相关峰的可访问性并将其与基因表达进行比较来计算基因得分。SEACells 基因得分的相关性明显优于使用所有相关峰的汇总得出的得分。因此,SEACells 元细胞清楚地识别了与表达显着相关并可能调节相应基因的顺式调控元件。
fig3ab

  • 图3a:ATAC 元细胞(顶部)或单细胞(底部)基因表达与 TAL1(红细胞)、MPO(髓系)和 IRF(树突状细胞)marker基因中最相关峰的可及性之间的 Spearman 相关性,基于 CD34 多组学数据计算。每个元细胞和单细胞根据细胞类型着色。注意:不同模态也可以计算Spearman 相关性(用于衡量两者的单调性)。
  • 图3b:使用 NFR(顶部)或所有 ATAC(底部)片段绘制 HSC、MEP 和红细胞 (Ery) 中的红细胞因子 GATA2 的可及性景观。将染色质可及性分析限制在 NFR 片段可提高峰值分辨率和调节元件与基因的关联。弧线由峰值-基因 Spearman 相关性着色(右侧颜色值介于 0 和 1 之间),使用 SEACells ATAC 元细胞确定。

准确推断peak-gene关联可以促进将ATAC数据转换为gene score。


方法

SEACells

SEACells 是一种从单细胞数据定义元细胞的算法。SEACells 算法假设生物系统由明确定义且有限的细胞状态集组成。观察到的单细胞数据被认为是这些细胞状态的稀疏且嘈杂的测量值(当前最先进的单细胞测量技术只能捕获 <10% 的转录本或 <5% 的开放染色质区域)。尽管噪声程度很高,但由于定义细胞状态的基因表达模式和调控机制,从相同状态中采样的细胞被认为具有密切相关的表型。SEACells 旨在将密切相关的细胞聚集到代表它们的元细胞中,从而克服单细胞数据的稀疏性。此外,由于稀疏性,scATAC-seq 数据的实用性特别有限。SEACells 元细胞还提供了一种可扩展的表示,可以有效处理大规模单细胞数据。尽管聚类被广泛用于克服稀疏性,但聚类掩盖了数据中存在的大量异质性。SEACells 元细胞实现了保留异质性同时克​​服单细胞数据稀疏性。

SEACells 的输入包括 (1) 原始计数矩阵(例如,RNA 的转录本计数、ATAC 的peak或bins计数);(2) 使用模态适当的预处理(例如 RNA 的主成分分析 PCA)得出的数据的低维表示;以及 (3) 要识别的元细胞数量。作为下游分析的输出,SEACells 生成代表元细胞的细胞分组、聚合的元细胞计数矩阵和代表高度相关细胞组的软分配。该算法可在 https://github.com/dpeerlab/SEACells 免费获取。

SEACells大致包含5个步骤:

  • 使用在低维嵌入空间中计算的细胞之间的欧几里得距离构建KNN图,以表示表型流形(phenotypic manifold)
  • 使用最近邻图导出细胞间相似性的亲和矩阵。使用自适应高斯核将graph中的距离转换为相似性,以解释表型流形中的细胞密度差异。亲和矩阵或核矩阵编码细胞之间的非线性关系
  • 使用核矩阵作为原型分析的输入(图1g)。虽然原型分析通常应用于数据矩阵,但作者将其应用于核矩阵,该核矩阵将细胞划分为高度相似的细胞簇,并能够表征整个表型流形,使其非常适合识别稳健的细胞状态。原型分析将数据分解为原型矩阵,原型矩阵包括代表表型流形上细胞状态的细胞线性组合,以及将单个细胞重构为原型线性组合的隶属度矩阵(图1g)。该方法对数据进行分区,使细胞-细胞相似性矩阵沿对角线具有紧密的块结构;每个分区是一组最能代表细胞状态并定义一个metacell的cells。元细胞的数量被指定为原型分析的输入
  • 将通过原型分析确定的分组标记为SEACells元细胞,并相应地汇总单个细胞原始计数,以导出metacell-by-feature矩阵
  • 归一化计数矩阵,可用于所有下游分析任务,如聚类、可视化、数据整合、轨迹推断和基于ATAC-seq的调控推理

Toolkit for ATAC

目前已经开发出大量强大的工具来解释来自bulk ATAC-seq 数据的开放染色质数据。然而,由于稀疏性,它们不能直接应用于单细胞数据。SEACells 元细胞是紧密相关细胞的聚集体,因此在忠实保留数据的异质性和结构的同时,稀疏性大大降低。在这里,作者描述了一个适用于 scATAC-seq 数据的强大工具包,该工具包改编自bulk数据分析工具。

Peak calling

使用ArchR执行。ArchR首先对单细胞数据进行聚类,并使用MACS2 peak caller分别识别每个簇的峰值。然后将每个峰的大小调整为500个碱基,峰顶位于中心,并合并跨不同簇的重叠峰。合并的峰值再次调整为500个碱基。

ATAC-seq数据提供了跨越TF结合区域和非抑制区域核小体的开放染色质区域的概况。ATAC-seq数据的片段大小分布包含反映该信息多样性的特征模式。因为第一种模式代表NFR,作者修改了ArchR管道,只使用NFR片段(片段长度< 147)来识别峰值,而不是使用所有片段的默认值。这种变化导致对调控元件的识别更加敏感。

Peak-gene关联和gene score

尽管NFR片段的使用提高了被称为峰的灵敏度,但并非所有被识别的峰都代表调节基因表达的TF结合事件。已有研究提出利用整合ATAC和RNA数据的峰可达性与基因表达的相关性来识别可能调控基因表达的峰。SEACells元细胞为计算这些关联提供了理想的分辨率,当使用稀疏的单细胞数据计算时,这些关联是不可靠的。作者使用ATAC模态鉴定的元细胞来构建峰基因关联。

作者采用Ma等人的程序来确定显著的峰-基因关联(Chromatin potential identified by shared single-cell profiling of RNA and chromatin)。对于每个基因,使用归一化的元细胞表达和归一化的ATAC可及性,计算基因上游100kb和下游100kb内的每个峰值的Pearson相关性。为了评估峰-基因相关性的重要性,采样了100个峰的经验背景,这些峰与GC含量和所考虑的峰的可及性相匹配。根据气相色谱含量和样品经验背景可及性,将各峰分别分成100个bins。任何名义 P < 1 × 1 0 − 1 P < 1 × 10^{−1} P<1×101的峰都被认为是显著的峰-基因关联。使用NFR片段鉴定的峰用于本分析。与基因相关的所有峰的总可达性用于确定元细胞基因评分。

推断TF活性

为了利用峰基因关联,作者提供了一种简单的基因调控网络(GRN)方法来推断TF活性,用于识别与不同细胞类型相关的关键TF。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/23442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++进阶】深入STL之vector:深入研究迭代器失效及拷贝问题

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;C “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;初步了解vector &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀STL之vector &#x1f4d2;1. 迭…

Linux C语言:数组的定义和初始化

一、数组 1、定义 在程序设计中&#xff0c;为了处理方便&#xff0c;把具有相同类型的若干变量按有序的形式组织起来&#xff0c;具有一定顺序关系的若干个变量的集合就是数组 。 2、特点 组成数组的各个变量称为数组的元素数组中各元素的数据类型要求相同元素在内存中是连…

pdf的压缩该怎么做?快速在线压缩pdf的方法

pdf文件是现在很常用的一种文件格式&#xff0c;有很多的文件内容都可以通过这种格式来展示内容&#xff0c;比如一些通知文件、设计图、个人信息等等&#xff0c;文件的内容越多就会越大&#xff0c;在使用的时候经常会受到一定的限制。那么有什么方法能够快速的将pdf文件变小…

目标检测-AnyLabeling标注格式转换成YOLO格式

Anylabel可以极大的增加数据的标注效率&#xff0c;但是其标注格式如何能转换成YOLO标注格式&#xff0c;具体内容如下所示。 关于AnyLabeling的其它详细介绍如下链接所示 https://blog.csdn.net/u011775793/article/details/134918861 Github链接 https://github.com/vietanhd…

巧用docker+jmeter快速实现分布式百万级并发

分享背景 碰到的问题&#xff1a; 一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试&#xff5e; 解决办法&#xff1a; 1、修改jmeter配置文件里的内存堆 2、引入jmeter分布式压测 带来的问题&#xff1a; 如果我们要做分布式负载测试–我们需要1个…

企业数据挖掘建模平台极简建模流程

泰迪智能科技企业数据挖掘建模平台是企业自主研发&#xff0c;面向企业级用户的快速数据处理构建模型工具。平台底层算法基于R语言、Python、Spark等引擎&#xff0c;使用JAVA语言开发&#xff0c;采用 B/S 结构&#xff0c;用户无需下载客户端&#xff0c;可直接通过浏览器进…

GAT1399协议分析(7)--pycharm anaconde3 配置pyside2

一、安装pyside2 pip install pyside2 二、配置qtdesigner File->Settings->Tools->External tools 点击添加,添加QtDesigner, 注意designer.exe路径,需要在虚拟环境下。 三、添加pySide2 File->Settings->Tools->External tools 点击添加,添加PyS…

高效内容分发:海外短剧推广平台的流媒体传输技术挑战与解决

随着海外短剧市场的蓬勃发展&#xff0c;如何高效地将短剧内容分发给全球观众成为了推广平台必须面对的一大挑战。在这一过程中&#xff0c;流媒体传输技术起着至关重要的作用。然而&#xff0c;由于网络环境的复杂性和多样性&#xff0c;流媒体传输面临着带宽限制、延迟等诸多…

前端--导出

这边记录我们公司后端做的导出接口和前端是如何对接的 这边的技术栈是&#xff1a; 1&#xff1a; react 2&#xff1a; fetch 第一步&#xff1a;简单封装--导出界面 import { DrawerForm } from ant-design/pro-components; import { CloseOutlined } f…

iOS 之homebrew ruby cocoapods 安装

cocoapods安装需要ruby&#xff0c;更新ruby需要rvm&#xff0c;下载rvm需要gpg&#xff0c;下载gpg需要homebrew&#xff0c;所以安装顺序是homebrew->gpg->rvm->ruby-cocoapods Rvm 官网&#xff1a; RVM: Ruby Version Manager - RVM Ruby Version Manager - Docum…

Linux 35.5 + JetPack v5.1.3@ ego-planner编译安装

Linux 35.5 JetPack v5.1.3 ego-planner编译安装 1. 源由2. 编译&安装Step 1&#xff1a;依赖库安装Step 2&#xff1a;建立工程Step 3&#xff1a;编译工程Step 4&#xff1a;安装工程 3. 问题汇总3.1 planner/plan_env - OpenCV3.2 uav_simulator/local_sensing - CUDA优…

《Navi日语社》App:日语学习与翻译的智能助手,支持日文OCR识别提取文字,无需打字对着说话就能翻译的日语语音翻译工具!

在全球化的今天&#xff0c;掌握一门外语已经成为许多人的必备技能。尤其是日语&#xff0c;不仅在学术、商务领域有着广泛的应用&#xff0c;也是许多旅行者和动漫爱好者的心头好。《Navi日语社》App&#xff0c;作为一款专为日语学习者和翻译需求者设计的移动应用&#xff0c…

Zookeeper复习

一、入门 1、概念 zookeeper文件系统通知机制 2.特点 1&#xff09;、一个领导者&#xff0c;多个跟随者组成的集群。 2&#xff09;、集群中只要有半数以上存活机制&#xff0c;zookeeper集群能正产服务。zk适合安装奇数台。 3&#xff09;、全局数据一致&#xff1a;每…

华为鸿蒙开发-鸿蒙基于ARKTS开发之启动模式

前言 鸿蒙生态取得爆发式增长&#xff01; 截至3月底&#xff0c;已有超4000个应用加入鸿蒙生态。 而在今年1月中旬&#xff0c;华为刚宣布HarmonyOS NEXT鸿蒙星河版面向开发者开放申请&#xff0c;这一版本鸿蒙系统也被称为“纯血鸿蒙”。 当时&#xff0c;华为宣布首批200…

2. QGis二次开发项目实践一之技术实现

前言 本文描述了QGis二次开发项目实践一的涉及到的技术点涉及到的QGis技术点如下 矢量图层加载显示矢量图层导出dxf矢量图层合并 代码描述 矢量图层加载显示 矢量图层加载显示在以前的教程中已有详细说明&#xff0c;请参考以下链接 5.1 加载矢量图层(ogr,gpx)5.2 加载矢量…

【微服务】使用kubekey部署k8s多节点及kubesphere

kubesphere官方部署文档 https://github.com/kubesphere/kubesphere/blob/master/README_zh.md kubuctl命令文档 https://kubernetes.io/zh-cn/docs/reference/kubectl/ k8s资源类型 https://kubernetes.io/zh-cn/docs/reference/kubectl/#%E8%B5%84%E6%BA%90%E7%B1%BB%E5%9E…

python中的函数概念

一段可以被重复使用的代码。 关于函数的定义 defdefine &#xff08;定义&#xff09; def 函数名&#xff08;形参列表&#xff09;&#xff1a;形参列表中&#xff0c;可以有多个形参&#xff0c;多个形参之间使用逗号分隔&#xff0c; 关于函数的调用 &#xff08;开始完…

Transformer 论文重点

摘要 提出了一个 Transformer 模型&#xff0c;针对于一个机器翻译的小任务上表现结果比当时所有模型的效果都好&#xff0c;并且架构相比其它更加简单&#xff0c;后面就火到了发现什么方向都能用的地步。 介绍 循环神经网络&#xff0c;特别是长短时记忆[ 13 ]和门控循环[…

kafka-消费者-指定offset消费(SpringBoot整合Kafka)

文章目录 1、指定offset消费1.1、创建消费者监听器‘1.2、application.yml配置1.3、使用 Java代码 创建 主题 my_topic1 并建立3个分区并给每个分区建立3个副本1.4、创建生产者发送消息1.4.1、分区0中的数据 1.5、创建SpringBoot启动类1.6、屏蔽 kafka debug 日志 logback.xml1…

nginx动静分离和反向代理

一、动静分离 动静分离指的是将动态内容和静态内容分开处理。动态内容通常由后端应用程序生成&#xff0c;例如PHP、Python或Node.js&#xff0c;静态内容则包括图片、CSS、JavaScript等文件。 例子&#xff1a; #代理服务器一 server{listen 80;server_name www.dj.com;r…