登 Cell 子刊!清华大学张强锋课题组开发 SPACE 算法,组织模块发现能力领先同类工具

多细胞生物中的细胞尽管共享相同的基因组,但因其内部基因调控网络的差异以及与周围微环境中相邻细胞的外部信号交流,使得它们在形态、基因表达和功能上展现出显著的多样性。为了将细胞类型信息与其在组织内的空间位置相关联,空间转录组学 (Spatial Transcriptomics,简称 ST) 技术应运而生。该技术既能获得高分辨率的转录组数据,还能和位置信息相对应,确定不同细胞亚型或转录状态在空间上的分布和位置关系,对于重新认知生命结构、个体发育、生命演化以及定义疾病具有关键性作用。

近年来,随着空间转录组学技术的不断发展,研究者能够在单细胞分辨率下获得细胞的基因表达谱,同时保留细胞在组织内的空间位置信息。如何有效地利用这些空间信息来识别空间细胞亚型并发现组织模块,成为空间转录组数据分析的核心任务。

当前,空间转录组数据分析面临以下两方面难题:第一,对于空间细胞类型的识别,许多研究仅使用细胞基因表达谱而忽视细胞的空间位置信息。近年来的研究表明,原本被认为是同质性的细胞类型,根据其在组织中的位置,可以进一步细分为多个亚型。第二,对于组织模块的发型,由于构成组织的不同细胞的基因表达特征可能高度异质化,之前的分析方法未能充分利用单细胞分辨率空间转录组数据中细胞类型的异质性。

基于此,清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心张强锋副教授课题组, 近日在 Cell Systems 杂志在线发表题为「Tissue module discovery in single-cell resolution spatial transcriptomics data via cell-cell interaction-aware cell embedding」的研究论文。

该研究开发了基于图自编码器 (Graph autoencoder) 深度学习框架的人工智能算法 SPACE (spatial transcriptomics data analysis via 「interaction-aware」 cell embedding), 能够从单细胞分辨率的空间转录组数据中识别空间细胞类型和发现组织模块,可被用于大规模的空间转录组研究。

研究亮点:

  • 开发了空间转录组数据人工智能分析工具 SPACE,可从单细胞分辨率的空间转录组数据中,识别空间细胞类型并发现组织模块

  • SPACE 在细胞类型识别和组织模块发现方面明显优于其他工具,尤其是在包含多种细胞类型的复杂组织中

  • SPACE 可用于大规模的空间转录组研究,以了解空间邻近细胞之间的相互作用如何影响细胞类型和组织模块生物学功能

论文地址:

https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:多数据集验证 SPACE 能力

为了验证 SPACE 的能力,研究中用到了多个数据集,汇总如下:

数据集下载地址:
https://go.hyper.ai/CBJfX

MERFISH 小鼠 PMC 数据集

对于 MERFISH 小鼠 PMC 数据集,从 Brain Image Library 获得对数转换的标准化细胞-基因矩阵,然后移除标记为「其他」的细胞或位于主样本区域外的细胞。
数据集链接:

https://doi.org/10.35077/g.21

STARmap 小鼠 PLA 数据集

对于 STARmap 小鼠 PLA 数据集,标准化的细胞-基因矩阵由原始论文提供并进行了对数转换。
数据集链接:

https://drive.google.com/file/d/1DDCowUuZ7PPFUSZsjvSqntWkYJMjf1Na/view?usp=sharing

MERFISH 小鼠 AB 数据集

对于 MERFISH 小鼠 AB 数据集,从 CELL x GENE 库获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://cellxgene.cziscience.com/collections/31937775-06024e52-a799-b6acdd2ba2e

MERFISH 小鼠 WB 数据集

对于 MERFISH 小鼠 WB 数据集,从 GitHub 库获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://github.com/AllenInstitute/abc_atlas_access

Xenium 人类 BC 数据集

对于 Xenium 人类 BC 数据集,从 10x genomics 网站获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://www.10xgenomics.com/products/xenium-in-situ/preview-dataset-human-breast

CosMx 人类 NSCLC 数据集

对于 CosMx 人类 NSCLC 数据集,从 nanoString 网站获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://nanostring.com/products/cosmx-spatial-molecular-imager/ffpe-dataset/nsclc-ffpe-dataset/

Visium 人脑数据集

对于 Visium 人脑数据集,基因计数矩阵使用 Bioconductor 包 spatialLIBD 获得。使用 python 包 SCANPY(v1.9.1)的scanpy.pp.highly_variable_genes() 函数(flavor = “seurat_v3”)在 Visium 人脑数据集的每个样本中识别出前 3,000 个高度可变基因。然后每个细胞的总计数标准化为 10,000,对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://bioconductor.org/packages/release/data/experiment/html/spatialLIBD.html

模型架构:基于细胞-细胞相互作用感知的细胞嵌入的模型

SPACE 使用图自编码器 (Graph autoencoder) 框架来学习低维的细胞嵌入,该细胞嵌入描述了空间转录组数据中每个细胞自身的基因表达信息以及其与空间邻近细胞的相互作用信息(因此称该细胞嵌入为细胞-细胞相互作用感知的细胞嵌入,cell-cell interaction-aware cell embedding)。在该细胞嵌入基础上,SPACE 再通过聚类算法识别空间细胞亚型和发现组织模块。

从架构来看,SPACE 模型由三部分组成:编码器 (三层图注意网络)、邻近图解码器和基因表达解码器, 下图显示了该模型的整体框架:

SPACE 模型框架

首先,SPACE 通过基于空间邻近性将每个细胞与其 k 个最近邻细胞连接起来构建邻接图;然后,SPACE 使用三层图注意力网络 (GAT) 作为编码器,将基因表达谱输入和邻接图转换为低维细胞表示,这些表示随后通过两个独立的解码器网络用于重构每个细胞的基因表达谱和邻接图。

为了训练 GAE 模型,SPACE 采用自监督学习,旨在最小化基因表达谱和邻接图的总重构损失。学习到的细胞表示随后可以使用各种聚类算法进行细胞类型识别和组织模块发现。

先前开发的深度学习工具使用了图卷积网络 (GCN) (例如,SpaGCN、SpaceFlow、GraphST 和 SEDR) 或图注意自动编码器 (例如,STAGATE) 来生成「邻域感知」嵌入,这些嵌入通过聚合分析细胞及其邻近细胞的基因表达谱来发现组织模块。SPACE 主要从以下三个方面区别于这些工具:

第一,SPACE 需要从相同的低维细胞表示中重构基因表达谱和邻接图(通过两个独立的解码器)。 这种设计使得 SPACE 能够记住分析细胞及其各个邻近细胞的基因表达谱和空间交互关系。相比之下,其他方法尽管将邻接图作为输入,但并不重构图。为了强调这一区别,本研究称 SPACE 生成的细胞嵌入为「细胞-细胞相互作用感知的细胞嵌入」。

第二,SPACE 定义了一个感知域比例,用于确定基因表达谱和邻接图重构损失的相对权重。 这一可调比例使 SPACE 能够根据特定研究需要调整学习重点,强调每个分析细胞的基因表达谱或空间邻近细胞的相互作用。

第三,SPACE 还在 GAT 编码器中使用注意力机制,在邻域信息聚合过程中自适应地学习每个邻域的权重。 这种方法自动考虑了不同邻域在基因表达谱重构过程中的各自贡献。

研究结果:SPACE 在细胞类型识别和组织模块发现方面优于其他同类工具

使用多个空间转录组数据集对 SPACE 进行测试,证明 SPACE 发现的细胞群落与人工标注的组织结构在空间分布特征上相似。

评估 SPACE 识别空间信息细胞类型的能力

研究最初使用 MERFISH 描述的小鼠初级运动皮层 (PMC) 的 ST 数据集 (从切片 153 开始) 来研究 SPACE 识别细胞类型的能力。结果显示,SPACE 识别的细胞类型与原始研究中报告的细胞类型很好地匹配, 如下图所示;此外,SPACE 还为某些细胞类型 (如星形胶质细胞和少突胶质细胞) 提供了更高分辨率的细胞类型标注。

桑基图展示了 MERFISH 小鼠 PMC 数据集的第 153 片中,所有细胞的空间信息中,相关细胞类型与原始细胞类型之间的对应关系

接着,研究人员进一步聚焦已鉴定的星形胶质细胞 (皮质层中的神经胶质细胞) 和少突胶质细胞 (中枢神经系统的髓鞘细胞) 亚型。星形胶质细胞曾被认为是一种同质细胞类型,但最近的 ST 研究报告称,它们在不同的大脑区域具有不同的功能。

MERFISH 小鼠 PMC 数据集中第 153 片的空间信息相关的星形胶质细胞亚型。细胞按星形胶质细胞亚型进行着色,浅灰色点表示其他细胞。虚线表示上层、深层和白质

试验中,SPACE 在 PMC 切片 153 中发现了三种不同的亚型,如上图所示,每种亚型在空间上分布在不同的皮质层中。类似于星形胶质细胞,SPACE 还将少突胶质细胞分类为三种具有不同空间分布模式的空间信息亚型。

STARmap 小鼠胎盘 (PLA) 数据集中具有空间位置和由SPACE 识别的空间信息相关细胞类型的细胞

研究人员还将 SPACE 应用于另一种 ST 技术 STARmap 生成的小鼠胎盘 (PLA) 数据集。结果显示,SPACE 将细胞标注为 16 种细胞类型,与原始研究中的细胞类型很好地匹配,如上图。SPACE 识别出两种糖原滋养层细胞亚型,这两种亚型在原始研究中都被标注为「巨滋养细胞 2」细胞。这两种亚型位于胎盘的不同区域,并具有独特的邻近交互细胞类型。

综上所述,基于不同 ST 方法和组织的两个独立数据集的分析支持了以下结论:SPACE 能够基于 ST 数据集中的空间信息识别出空间信息具有生物学差异的细胞类型。

评估 SPACE 在细胞类型识别中的表现

研究人员将 SPACE 与目前用于从空间转录组学数据中识别细胞类型的两种工具 BANKSY 和 FICT 进行了比较,这两种工具除了基因表达外,还考虑了空间信息。在分析中,研究人员还加入了 SCANPY,一种广泛用于细胞类型识别的工具,尽管它仅考虑基因表达。

为了进行比较,研究人员使用了前面提到的 MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集。如下图显示,SPACE 能够识别不同的空间信息星形胶质细胞和少突胶质细胞亚型,但 SCANPY 和 FICT 都无法定义具有皮质层分辨空间分布模式的星形胶质细胞和少突胶质细胞亚型。

对于 STARmap 小鼠 PLA 数据集,虽然 SPACE 和 BANKSY 成功识别了两种糖原滋养层细胞亚型,但 SCANPY 和 FICT 未能识别糖原滋养层细胞亚型,这可能是由于两种糖原滋养层细胞亚型之间的周围细胞类型存在明显差异。

SPACE在识别空间信息相关的细胞亚型方面优于现有工具

这些结果共同表明,SPACE 优于目前可用的工具,可用于从 ST 数据中区分空间信息细胞类型。

SPACE 在组织模块发现方面优于最先进工具

空间转录组学研究的一项重要任务是发现给定组织中的组织模块。为了评估 SPACE 在这方面的能力,研究人员将 SPACE 与 SEDR、SpaGCN、STAGATE、BANKSY、SpaceFlow、GraphST 、Schürch 等人的方法,以及 SCANPY 和 SPACE_ng 进行了比较,并使用了两个前述的 ST 数据集 (MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集),以及三个具有标注组织模块的附加数据集,包括 MERFISH 小鼠老化大脑 (AB) 数据集、MERFISH 小鼠整个大脑(WB) 数据集和 Xenium 人类乳腺癌 (BC) 数据集,这些数据集代表了从不同组织、不同条件下获得的 ST 数据。

总体而言,SPACE 在 5 个数据集中的 2 个表现远超其他竞争工具,并在其他 3 个数据集中的表现几乎与表现最佳的工具相当(相对于各自最佳的工具), 如下图所示:

SPACE 在组织模块发现方面优于最先进工具

破除空间转录组数据分析的挑战

空间转录组技术是生物信息学领域近年来的重大突破之一,2020 年被 nature method 评为年度技术。 该技术通过同时测量大量细胞的空间位置和细胞内的转录组计数,弥补了单细胞测序技术难以测量单个细胞之间位置关系的缺陷,从而为理解多细胞之间的相互作用提供了全新的数据基础——发展针对空间转录组数据的基础分析方法是当前生物信息学领域的前沿问题之一。

细胞空间定位信息与其分子特征谱的耦合产生了新型的多模态高通量数据资源,这对高效的数据分析与信息挖掘方法的开发提出了许多挑战,而人工智能则为解决这些挑战提供了新的思路。

2022 年 7 月,上海交通大学电子信息与电气工程学院自动化系沈红斌教授、 袁野副教授课题组在 Nature 子刊 Nature Computational Science 上发表了题为:「Cell clustering for spatial transcriptomics data with graph neural networks 」(利用图神经网络对空间转录组数据进行细胞聚类) 的研究论文。

论文链接: https://www.nature.com/articles/s43588-022-00266-5

论文提出了一种基于图卷积神经网络的空间转录组细胞聚类方法(Cell Clustering for Spatial Transcriptomics,CCST), 为处理空间转录组数据提供了新方案,具有被应用于生命医药科学中多层次基础问题研究的潜力,包括建模基因表达的空间分布、分析细胞动力学以及发现关键细胞亚型相互作用及其分子机制等。

2023 年 4 月,约翰斯·霍普金斯大学 (Johns Hopkins University) 的研究团队开发了 SpaceMarkers, 这是一种生物信息学算法,可以利用 ST 数据的潜在空间分析,推断出细胞间相互作用的分子变化。研究人员使用这种方法来推断转移、侵袭性和前驱病变以及免疫治疗的 Visium 空间转录组学数据中肿瘤免疫相互作用的分子变化。

该研究以「Uncovering the spatial landscape of molecular interactions within the tumor microenvironment through latent spaces」为题发布在 Cell Systems。

今年 4 月,一篇发表在国际杂志Nature Genetics上题为「BANKSY unifies cell typing and tissue domain segmentation for scalable spatial omics data analysis」的研究报告中,来自新加坡 A*STAR 研究所等机构的科学家们通过研究报道了一种名为 BBANKSY的算法 (Building Aggregates with a Neighborhood Kernel and Spatial Yardstick), 该算法作为一种创新的空间组学数据分析工具,其主要功能是将空间组学数据中的细胞根据类型和组织域进行有效分类。

论文链接: https://www.nature.com/articles/s41588-024-01664-3

革命性算法BANKSY或能重塑空间组学数据分析

显然,未来在人工智能技术的加持下,空间转录组技术将更好地揭示各细胞类型在组织中的空间分布、各细胞群体间的相互作用以及绘制不同组织区域的基因表达图谱,这对理解疾病和癌症的发生机制具有深远的应用价值。

参考资料:
1.https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8#secsectitle0030
2.https://www.tsinghua.edu.cn/info/1175/112190.htm
3.https://news.bioon.com/article/367a820e60b9.html
4.https://www.sohu.com/a/677912398_12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40377.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue86-Vuex中的getters属性

一、getters的使用 1-1、index.js中getters的书写 计算属性computed靠return获得返回值! 1-2、组件中getters的调用 state是数据源,getters是拿着数据源里的东西进行一番加工。像极了:data和computed 二、小结

vue 启动项目报错Syntax Error: Error: PostCSS received undefined instead of CSS string

启动vue项目然后报错如下图 这个是跟node版本有关系 因为要开发不同的项目使用不同的node版本,所以就用nvm切换,所以导致了node-sass编译问题 执行这个命令就可以 npm install node-sass or npm rebuild node-sass node-sass对于node高版本和低版本切…

智能胎教仪,科技与教育的融合-N9301胎教仪语音方案

随着科学技术的不断进步,人们对婴幼儿教育的认知也日趋成熟和全面。其中,胎教作为一种重要的早期教育方式,近年来备受瞩目。而胎教仪语音芯片的研发,正是为了满足这一需求,为胎儿的健康成长提供更加便捷的胎教方案。 一…

Tomcat服务部署安装

一、Tomcat基础 1.Tomcat简介 Tomcat服务器是一个免费的开放源代码的Web应用服务器,Tomcat虽然和Apache或者Nginx这些Web服务器一样,具有处理HTML页面的功能,然而由于其处理静态HTML的能力远不及Apache或者Nginx,所以Tomcat通常…

“LNMP环境搭建实战指南:从零开始配置CentOS 7下的Nginx、MySQL与PHP“

目录 1.前言 2.准备工作 2.1.环境信息 2.2.关闭SELinux和firewalld 3.安装Nginx 3.1.运行以下命令,安装Nginx 3.2.运行以下命令,查看Nginx版本 4.安装MySQL 4.1.更新秘钥 4.2.配置MySQL的YUM仓库 4.3.安装MySQL 4.4.查看MySQL版本 4.5.启动…

Springboot+Vue3开发学习笔记《1》

SpringbootVue3开发学习笔记《1》 博主正在学习SpringbootVue3开发,希望记录自己学习过程同时与广大网友共同学习讨论。 一、前置条件 博主所用版本: IDEA需要破解,破解工具链接容易挂,关注私聊我单发。 Spring Boot是Spring提…

若依前后端分离 前端路由登录页 如何进行跳转

路由守卫,看这篇文章 http://t.csdnimg.cn/HkypThttp://t.csdnimg.cn/HkypT

MySQL存储与优化 一、MySQL架构原理

1.MySQL体系架构 MySQL Server架构自顶向下大致可以分网络连接层、服务层、存储引擎层和系统文件层 (1)网络连接层 客户端连接器(Client Connectors):提供与MySQL服务器建立的支持。目前几乎支持所有主流的服务端编程技术,例如常…

有趣的递归(Recursion),一些直观的示例

从前有座山, 山上有座庙, 庙里有个老和尚在给小和尚讲故事: “从前有座山, 山上有座庙, 庙里有个老和尚在给小和尚讲故事: …” 反复而纠结的定义 看完这个故事, 对递归你已经有了印象, 很好, 这样已足够. 如果你不幸是个喜欢精确定义的人, 那么答案可能无法让你满意: 你想知…

java考试题20道

选择题 编译Java源代码文件的命令是javac javac命令是将Java源代码文件进行编译得到字节码文件(.class文件) java命令是在JVM上运行得到的字节码文件 下面是一个示例: javac test.java -------> test.class java test ------> 运行test.class文件下列那…

vue3 在el-input的光标处插入文本

点击文本框下方的按钮&#xff0c;将相应的文本插入光标处的实现&#xff1a; <el-input type"textarea" rows"4" v-model"formula" blur"handleBlur" clearable></el-input><el-button-group class"short_btn&q…

63、基于深度学习网络的数字分类(matlab)

1、基于深度学习网络的数字分类的原理及流程 基于深度学习网络的数字分类是一种常见的机器学习任务&#xff0c;通常使用的是卷积神经网络&#xff08;CNN&#xff09;来实现。下面是其原理及流程的简要说明&#xff1a; 数据收集&#xff1a;首先&#xff0c;需要收集包含数字…

【shell script】

文章目录 一、基础shell script二、脚本运行方式的差异三、判断式1.利用test命令2.利用判断符号[] 四、if&#xff0c;case语句1.if...then2.case...esac 五、函数function六、循环1.while和until循环2.for循环 一、基础shell script 在“shell”部分&#xff0c;那是在命令行…

Flutter——最详细(Badge)使用教程

背景 主要常用于组件叠加上圆点提示&#xff1b; 使用场景&#xff0c;消息数量提示&#xff0c;消息红点提示 属性作用backgroundColor红点背景色smallSize设置红点大小isLabelVisible是否显示offset设置红点位置alignment设置红点位置child设置底部组件 代码块 class Badge…

从数据洞察到智慧决策:数字孪生技术在智慧水利中的应用实践,为水库管理提供强有力的数据支撑和智能分析

目录 一、引言 二、数字孪生技术的核心与原理 三、数字孪生技术在智慧水利中的应用场景 1、水库管理的挑战与需求 2、数字孪生水库管理系统的构建 四、数字孪生技术在水库管理中的具体应用案例 1、洪水预测与模拟 2、水资源配置与调度 3、大坝安全监测与评估 4、生态环…

【C++/STL深度剖析】stack和queue的详细概念和使用(图文详解,初学者必看!!)

目录 一、前言 二、stack 的详细解析 &#x1f525; stack的介绍&#x1f525; &#x1f525; stack的构造&#x1f525; &#x1f525; stack的常用接口&#x1f525; &#x1f4a7;push &#x1f4a7;top &#x1f4a7;pop &#x1f4a7;empty &#x1f4a7;size…

Android文件路径获取

文件存储相关的文档 文件存储相关的系列文档如下&#xff0c;可根据需要查看这些文档 Android文件路径获取 Android存储权限梳理及api接口调用 Android各种存储路径的比较 Android R及以上版本中APP外部存储实现 Android文件路径获取 在Android开发中&#xff0c;经常需要…

24位DAC转换的FPGA设计及将其封装成自定义IP核的方法

在vivado设计中,为了方便的使用Block Desgin进行设计,可以使用vivado软件把自己编写的代码封装成IP核,封装后的IP核和原来的代码具有相同的功能。本文以实现24位DA转换(含并串转换,使用的数模转换器为CL4660)为例,介绍VIVADO封装IP核的方法及调用方法,以及DAC转换的详细…

REGX52.H报错

keil cannot open source input file "REGX52.H": No such file or directory 选择下面这个目录 Keil\C51\INC\Atmel

Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL

章节内容 上一节我们完成了&#xff1a; Reduce JOIN 的介绍Reduce JOIN 的具体实现DriverMapperReducer运行测试 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经在 VM 虚拟机上搭建过一次&am…