登 Cell 子刊!清华大学张强锋课题组开发 SPACE 算法,组织模块发现能力领先同类工具

多细胞生物中的细胞尽管共享相同的基因组,但因其内部基因调控网络的差异以及与周围微环境中相邻细胞的外部信号交流,使得它们在形态、基因表达和功能上展现出显著的多样性。为了将细胞类型信息与其在组织内的空间位置相关联,空间转录组学 (Spatial Transcriptomics,简称 ST) 技术应运而生。该技术既能获得高分辨率的转录组数据,还能和位置信息相对应,确定不同细胞亚型或转录状态在空间上的分布和位置关系,对于重新认知生命结构、个体发育、生命演化以及定义疾病具有关键性作用。

近年来,随着空间转录组学技术的不断发展,研究者能够在单细胞分辨率下获得细胞的基因表达谱,同时保留细胞在组织内的空间位置信息。如何有效地利用这些空间信息来识别空间细胞亚型并发现组织模块,成为空间转录组数据分析的核心任务。

当前,空间转录组数据分析面临以下两方面难题:第一,对于空间细胞类型的识别,许多研究仅使用细胞基因表达谱而忽视细胞的空间位置信息。近年来的研究表明,原本被认为是同质性的细胞类型,根据其在组织中的位置,可以进一步细分为多个亚型。第二,对于组织模块的发型,由于构成组织的不同细胞的基因表达特征可能高度异质化,之前的分析方法未能充分利用单细胞分辨率空间转录组数据中细胞类型的异质性。

基于此,清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心张强锋副教授课题组, 近日在 Cell Systems 杂志在线发表题为「Tissue module discovery in single-cell resolution spatial transcriptomics data via cell-cell interaction-aware cell embedding」的研究论文。

该研究开发了基于图自编码器 (Graph autoencoder) 深度学习框架的人工智能算法 SPACE (spatial transcriptomics data analysis via 「interaction-aware」 cell embedding), 能够从单细胞分辨率的空间转录组数据中识别空间细胞类型和发现组织模块,可被用于大规模的空间转录组研究。

研究亮点:

  • 开发了空间转录组数据人工智能分析工具 SPACE,可从单细胞分辨率的空间转录组数据中,识别空间细胞类型并发现组织模块

  • SPACE 在细胞类型识别和组织模块发现方面明显优于其他工具,尤其是在包含多种细胞类型的复杂组织中

  • SPACE 可用于大规模的空间转录组研究,以了解空间邻近细胞之间的相互作用如何影响细胞类型和组织模块生物学功能

论文地址:

https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:多数据集验证 SPACE 能力

为了验证 SPACE 的能力,研究中用到了多个数据集,汇总如下:

数据集下载地址:
https://go.hyper.ai/CBJfX

MERFISH 小鼠 PMC 数据集

对于 MERFISH 小鼠 PMC 数据集,从 Brain Image Library 获得对数转换的标准化细胞-基因矩阵,然后移除标记为「其他」的细胞或位于主样本区域外的细胞。
数据集链接:

https://doi.org/10.35077/g.21

STARmap 小鼠 PLA 数据集

对于 STARmap 小鼠 PLA 数据集,标准化的细胞-基因矩阵由原始论文提供并进行了对数转换。
数据集链接:

https://drive.google.com/file/d/1DDCowUuZ7PPFUSZsjvSqntWkYJMjf1Na/view?usp=sharing

MERFISH 小鼠 AB 数据集

对于 MERFISH 小鼠 AB 数据集,从 CELL x GENE 库获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://cellxgene.cziscience.com/collections/31937775-06024e52-a799-b6acdd2ba2e

MERFISH 小鼠 WB 数据集

对于 MERFISH 小鼠 WB 数据集,从 GitHub 库获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://github.com/AllenInstitute/abc_atlas_access

Xenium 人类 BC 数据集

对于 Xenium 人类 BC 数据集,从 10x genomics 网站获得基因计数矩阵。每个细胞的总计数标准化为 10,000,然后对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://www.10xgenomics.com/products/xenium-in-situ/preview-dataset-human-breast

CosMx 人类 NSCLC 数据集

对于 CosMx 人类 NSCLC 数据集,从 nanoString 网站获得对数转换的标准化细胞-基因矩阵。
数据集链接:

https://nanostring.com/products/cosmx-spatial-molecular-imager/ffpe-dataset/nsclc-ffpe-dataset/

Visium 人脑数据集

对于 Visium 人脑数据集,基因计数矩阵使用 Bioconductor 包 spatialLIBD 获得。使用 python 包 SCANPY(v1.9.1)的scanpy.pp.highly_variable_genes() 函数(flavor = “seurat_v3”)在 Visium 人脑数据集的每个样本中识别出前 3,000 个高度可变基因。然后每个细胞的总计数标准化为 10,000,对标准化的细胞-基因矩阵进行对数转换。
数据集链接:

https://bioconductor.org/packages/release/data/experiment/html/spatialLIBD.html

模型架构:基于细胞-细胞相互作用感知的细胞嵌入的模型

SPACE 使用图自编码器 (Graph autoencoder) 框架来学习低维的细胞嵌入,该细胞嵌入描述了空间转录组数据中每个细胞自身的基因表达信息以及其与空间邻近细胞的相互作用信息(因此称该细胞嵌入为细胞-细胞相互作用感知的细胞嵌入,cell-cell interaction-aware cell embedding)。在该细胞嵌入基础上,SPACE 再通过聚类算法识别空间细胞亚型和发现组织模块。

从架构来看,SPACE 模型由三部分组成:编码器 (三层图注意网络)、邻近图解码器和基因表达解码器, 下图显示了该模型的整体框架:

SPACE 模型框架

首先,SPACE 通过基于空间邻近性将每个细胞与其 k 个最近邻细胞连接起来构建邻接图;然后,SPACE 使用三层图注意力网络 (GAT) 作为编码器,将基因表达谱输入和邻接图转换为低维细胞表示,这些表示随后通过两个独立的解码器网络用于重构每个细胞的基因表达谱和邻接图。

为了训练 GAE 模型,SPACE 采用自监督学习,旨在最小化基因表达谱和邻接图的总重构损失。学习到的细胞表示随后可以使用各种聚类算法进行细胞类型识别和组织模块发现。

先前开发的深度学习工具使用了图卷积网络 (GCN) (例如,SpaGCN、SpaceFlow、GraphST 和 SEDR) 或图注意自动编码器 (例如,STAGATE) 来生成「邻域感知」嵌入,这些嵌入通过聚合分析细胞及其邻近细胞的基因表达谱来发现组织模块。SPACE 主要从以下三个方面区别于这些工具:

第一,SPACE 需要从相同的低维细胞表示中重构基因表达谱和邻接图(通过两个独立的解码器)。 这种设计使得 SPACE 能够记住分析细胞及其各个邻近细胞的基因表达谱和空间交互关系。相比之下,其他方法尽管将邻接图作为输入,但并不重构图。为了强调这一区别,本研究称 SPACE 生成的细胞嵌入为「细胞-细胞相互作用感知的细胞嵌入」。

第二,SPACE 定义了一个感知域比例,用于确定基因表达谱和邻接图重构损失的相对权重。 这一可调比例使 SPACE 能够根据特定研究需要调整学习重点,强调每个分析细胞的基因表达谱或空间邻近细胞的相互作用。

第三,SPACE 还在 GAT 编码器中使用注意力机制,在邻域信息聚合过程中自适应地学习每个邻域的权重。 这种方法自动考虑了不同邻域在基因表达谱重构过程中的各自贡献。

研究结果:SPACE 在细胞类型识别和组织模块发现方面优于其他同类工具

使用多个空间转录组数据集对 SPACE 进行测试,证明 SPACE 发现的细胞群落与人工标注的组织结构在空间分布特征上相似。

评估 SPACE 识别空间信息细胞类型的能力

研究最初使用 MERFISH 描述的小鼠初级运动皮层 (PMC) 的 ST 数据集 (从切片 153 开始) 来研究 SPACE 识别细胞类型的能力。结果显示,SPACE 识别的细胞类型与原始研究中报告的细胞类型很好地匹配, 如下图所示;此外,SPACE 还为某些细胞类型 (如星形胶质细胞和少突胶质细胞) 提供了更高分辨率的细胞类型标注。

桑基图展示了 MERFISH 小鼠 PMC 数据集的第 153 片中,所有细胞的空间信息中,相关细胞类型与原始细胞类型之间的对应关系

接着,研究人员进一步聚焦已鉴定的星形胶质细胞 (皮质层中的神经胶质细胞) 和少突胶质细胞 (中枢神经系统的髓鞘细胞) 亚型。星形胶质细胞曾被认为是一种同质细胞类型,但最近的 ST 研究报告称,它们在不同的大脑区域具有不同的功能。

MERFISH 小鼠 PMC 数据集中第 153 片的空间信息相关的星形胶质细胞亚型。细胞按星形胶质细胞亚型进行着色,浅灰色点表示其他细胞。虚线表示上层、深层和白质

试验中,SPACE 在 PMC 切片 153 中发现了三种不同的亚型,如上图所示,每种亚型在空间上分布在不同的皮质层中。类似于星形胶质细胞,SPACE 还将少突胶质细胞分类为三种具有不同空间分布模式的空间信息亚型。

STARmap 小鼠胎盘 (PLA) 数据集中具有空间位置和由SPACE 识别的空间信息相关细胞类型的细胞

研究人员还将 SPACE 应用于另一种 ST 技术 STARmap 生成的小鼠胎盘 (PLA) 数据集。结果显示,SPACE 将细胞标注为 16 种细胞类型,与原始研究中的细胞类型很好地匹配,如上图。SPACE 识别出两种糖原滋养层细胞亚型,这两种亚型在原始研究中都被标注为「巨滋养细胞 2」细胞。这两种亚型位于胎盘的不同区域,并具有独特的邻近交互细胞类型。

综上所述,基于不同 ST 方法和组织的两个独立数据集的分析支持了以下结论:SPACE 能够基于 ST 数据集中的空间信息识别出空间信息具有生物学差异的细胞类型。

评估 SPACE 在细胞类型识别中的表现

研究人员将 SPACE 与目前用于从空间转录组学数据中识别细胞类型的两种工具 BANKSY 和 FICT 进行了比较,这两种工具除了基因表达外,还考虑了空间信息。在分析中,研究人员还加入了 SCANPY,一种广泛用于细胞类型识别的工具,尽管它仅考虑基因表达。

为了进行比较,研究人员使用了前面提到的 MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集。如下图显示,SPACE 能够识别不同的空间信息星形胶质细胞和少突胶质细胞亚型,但 SCANPY 和 FICT 都无法定义具有皮质层分辨空间分布模式的星形胶质细胞和少突胶质细胞亚型。

对于 STARmap 小鼠 PLA 数据集,虽然 SPACE 和 BANKSY 成功识别了两种糖原滋养层细胞亚型,但 SCANPY 和 FICT 未能识别糖原滋养层细胞亚型,这可能是由于两种糖原滋养层细胞亚型之间的周围细胞类型存在明显差异。

SPACE在识别空间信息相关的细胞亚型方面优于现有工具

这些结果共同表明,SPACE 优于目前可用的工具,可用于从 ST 数据中区分空间信息细胞类型。

SPACE 在组织模块发现方面优于最先进工具

空间转录组学研究的一项重要任务是发现给定组织中的组织模块。为了评估 SPACE 在这方面的能力,研究人员将 SPACE 与 SEDR、SpaGCN、STAGATE、BANKSY、SpaceFlow、GraphST 、Schürch 等人的方法,以及 SCANPY 和 SPACE_ng 进行了比较,并使用了两个前述的 ST 数据集 (MERFISH 小鼠 PMC 数据集和 STARmap 小鼠 PLA 数据集),以及三个具有标注组织模块的附加数据集,包括 MERFISH 小鼠老化大脑 (AB) 数据集、MERFISH 小鼠整个大脑(WB) 数据集和 Xenium 人类乳腺癌 (BC) 数据集,这些数据集代表了从不同组织、不同条件下获得的 ST 数据。

总体而言,SPACE 在 5 个数据集中的 2 个表现远超其他竞争工具,并在其他 3 个数据集中的表现几乎与表现最佳的工具相当(相对于各自最佳的工具), 如下图所示:

SPACE 在组织模块发现方面优于最先进工具

破除空间转录组数据分析的挑战

空间转录组技术是生物信息学领域近年来的重大突破之一,2020 年被 nature method 评为年度技术。 该技术通过同时测量大量细胞的空间位置和细胞内的转录组计数,弥补了单细胞测序技术难以测量单个细胞之间位置关系的缺陷,从而为理解多细胞之间的相互作用提供了全新的数据基础——发展针对空间转录组数据的基础分析方法是当前生物信息学领域的前沿问题之一。

细胞空间定位信息与其分子特征谱的耦合产生了新型的多模态高通量数据资源,这对高效的数据分析与信息挖掘方法的开发提出了许多挑战,而人工智能则为解决这些挑战提供了新的思路。

2022 年 7 月,上海交通大学电子信息与电气工程学院自动化系沈红斌教授、 袁野副教授课题组在 Nature 子刊 Nature Computational Science 上发表了题为:「Cell clustering for spatial transcriptomics data with graph neural networks 」(利用图神经网络对空间转录组数据进行细胞聚类) 的研究论文。

论文链接: https://www.nature.com/articles/s43588-022-00266-5

论文提出了一种基于图卷积神经网络的空间转录组细胞聚类方法(Cell Clustering for Spatial Transcriptomics,CCST), 为处理空间转录组数据提供了新方案,具有被应用于生命医药科学中多层次基础问题研究的潜力,包括建模基因表达的空间分布、分析细胞动力学以及发现关键细胞亚型相互作用及其分子机制等。

2023 年 4 月,约翰斯·霍普金斯大学 (Johns Hopkins University) 的研究团队开发了 SpaceMarkers, 这是一种生物信息学算法,可以利用 ST 数据的潜在空间分析,推断出细胞间相互作用的分子变化。研究人员使用这种方法来推断转移、侵袭性和前驱病变以及免疫治疗的 Visium 空间转录组学数据中肿瘤免疫相互作用的分子变化。

该研究以「Uncovering the spatial landscape of molecular interactions within the tumor microenvironment through latent spaces」为题发布在 Cell Systems。

今年 4 月,一篇发表在国际杂志Nature Genetics上题为「BANKSY unifies cell typing and tissue domain segmentation for scalable spatial omics data analysis」的研究报告中,来自新加坡 A*STAR 研究所等机构的科学家们通过研究报道了一种名为 BBANKSY的算法 (Building Aggregates with a Neighborhood Kernel and Spatial Yardstick), 该算法作为一种创新的空间组学数据分析工具,其主要功能是将空间组学数据中的细胞根据类型和组织域进行有效分类。

论文链接: https://www.nature.com/articles/s41588-024-01664-3

革命性算法BANKSY或能重塑空间组学数据分析

显然,未来在人工智能技术的加持下,空间转录组技术将更好地揭示各细胞类型在组织中的空间分布、各细胞群体间的相互作用以及绘制不同组织区域的基因表达图谱,这对理解疾病和癌症的发生机制具有深远的应用价值。

参考资料:
1.https://www.cell.com/cell-systems/fulltext/S2405-4712(24)00124-8#secsectitle0030
2.https://www.tsinghua.edu.cn/info/1175/112190.htm
3.https://news.bioon.com/article/367a820e60b9.html
4.https://www.sohu.com/a/677912398_12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40377.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue86-Vuex中的getters属性

一、getters的使用 1-1、index.js中getters的书写 计算属性computed靠return获得返回值! 1-2、组件中getters的调用 state是数据源,getters是拿着数据源里的东西进行一番加工。像极了:data和computed 二、小结

vue 启动项目报错Syntax Error: Error: PostCSS received undefined instead of CSS string

启动vue项目然后报错如下图 这个是跟node版本有关系 因为要开发不同的项目使用不同的node版本,所以就用nvm切换,所以导致了node-sass编译问题 执行这个命令就可以 npm install node-sass or npm rebuild node-sass node-sass对于node高版本和低版本切…

智能胎教仪,科技与教育的融合-N9301胎教仪语音方案

随着科学技术的不断进步,人们对婴幼儿教育的认知也日趋成熟和全面。其中,胎教作为一种重要的早期教育方式,近年来备受瞩目。而胎教仪语音芯片的研发,正是为了满足这一需求,为胎儿的健康成长提供更加便捷的胎教方案。 一…

Tomcat服务部署安装

一、Tomcat基础 1.Tomcat简介 Tomcat服务器是一个免费的开放源代码的Web应用服务器,Tomcat虽然和Apache或者Nginx这些Web服务器一样,具有处理HTML页面的功能,然而由于其处理静态HTML的能力远不及Apache或者Nginx,所以Tomcat通常…

Linux 程序置顶脚本

引言 当希望我们运行的程序,一直保持在最顶端运行,即置顶状态,那么有很多种方式,这边给出一种脚本方式处理。 通过持续监控,当发现活动窗口不是我们所希望的窗口时,将我们希望置顶的程序窗口置顶。 脚本 …

力扣:3195. 包含所有 1 的最小矩形面积 I(Java)

目录 题目描述:示例 1:示例 2:代码实现: 题目描述: 给你一个二维 二进制 数组 grid。请你找出一个边在水平方向和竖直方向上、面积 最小 的矩形,并且满足 grid 中所有的 1 都在矩形的内部。 返回这个矩形可…

LLama-Factory大模型训练框架,基于自己数据集微调qwen7B模型实战

一,项目简介 LLama-Factory,大模型训练框架,支持多种模型,多种训练方式, 项目github地址:link 项目特色 多种模型:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGL…

“LNMP环境搭建实战指南:从零开始配置CentOS 7下的Nginx、MySQL与PHP“

目录 1.前言 2.准备工作 2.1.环境信息 2.2.关闭SELinux和firewalld 3.安装Nginx 3.1.运行以下命令,安装Nginx 3.2.运行以下命令,查看Nginx版本 4.安装MySQL 4.1.更新秘钥 4.2.配置MySQL的YUM仓库 4.3.安装MySQL 4.4.查看MySQL版本 4.5.启动…

Java 8默认垃圾回收器

Java 8作为Java语言的重要里程碑,不仅引入了Lambda表达式、Stream API等新特性,还在垃圾回收(Garbage Collection, GC)方面继续沿用了Java 7的策略,但同时也提供了新的垃圾回收器选项。在本文中,我们将深入…

Springboot+Vue3开发学习笔记《1》

SpringbootVue3开发学习笔记《1》 博主正在学习SpringbootVue3开发,希望记录自己学习过程同时与广大网友共同学习讨论。 一、前置条件 博主所用版本: IDEA需要破解,破解工具链接容易挂,关注私聊我单发。 Spring Boot是Spring提…

Linux--start-stop-daemon

参考:start-stop-daemon(8) - Linux manual page 1、名称 start-stop-daemon:启动和停止系统守护程序。 2、简介 start-stop-daemon [option...] command 3、描述 start-stop-daemon用于控制系统级进程的创建和终止。使用其中一个匹配选项&#xff0…

vue-router 源码分析——7.命名视图

这是对vue-router 3 版本的源码分析。 本次分析会按以下方法进行: 按官网的使用文档顺序,围绕着某一功能点进行分析。这样不仅能学习优秀的项目源码,更能加深对项目的某个功能是如何实现的理解。这个对自己的技能提升,甚至面试时…

若依前后端分离 前端路由登录页 如何进行跳转

路由守卫,看这篇文章 http://t.csdnimg.cn/HkypThttp://t.csdnimg.cn/HkypT

MySQL存储与优化 一、MySQL架构原理

1.MySQL体系架构 MySQL Server架构自顶向下大致可以分网络连接层、服务层、存储引擎层和系统文件层 (1)网络连接层 客户端连接器(Client Connectors):提供与MySQL服务器建立的支持。目前几乎支持所有主流的服务端编程技术,例如常…

有趣的递归(Recursion),一些直观的示例

从前有座山, 山上有座庙, 庙里有个老和尚在给小和尚讲故事: “从前有座山, 山上有座庙, 庙里有个老和尚在给小和尚讲故事: …” 反复而纠结的定义 看完这个故事, 对递归你已经有了印象, 很好, 这样已足够. 如果你不幸是个喜欢精确定义的人, 那么答案可能无法让你满意: 你想知…

java考试题20道

选择题 编译Java源代码文件的命令是javac javac命令是将Java源代码文件进行编译得到字节码文件(.class文件) java命令是在JVM上运行得到的字节码文件 下面是一个示例: javac test.java -------> test.class java test ------> 运行test.class文件下列那…

vue3 在el-input的光标处插入文本

点击文本框下方的按钮&#xff0c;将相应的文本插入光标处的实现&#xff1a; <el-input type"textarea" rows"4" v-model"formula" blur"handleBlur" clearable></el-input><el-button-group class"short_btn&q…

63、基于深度学习网络的数字分类(matlab)

1、基于深度学习网络的数字分类的原理及流程 基于深度学习网络的数字分类是一种常见的机器学习任务&#xff0c;通常使用的是卷积神经网络&#xff08;CNN&#xff09;来实现。下面是其原理及流程的简要说明&#xff1a; 数据收集&#xff1a;首先&#xff0c;需要收集包含数字…

华为高斯数据库安装

这里主要在虚拟机上安装&#xff0c;选择openEuler系统。已经有很多博文介绍了虚拟机安装&#xff0c;直接推荐博文。 OpenEulerx虚拟机中安装 openEuler添加VMware-tools 数据库的安装也有详细博文推荐 OpenGauss数据库的详细安装 借花献佛&#xff0c;大家努力

【shell script】

文章目录 一、基础shell script二、脚本运行方式的差异三、判断式1.利用test命令2.利用判断符号[] 四、if&#xff0c;case语句1.if...then2.case...esac 五、函数function六、循环1.while和until循环2.for循环 一、基础shell script 在“shell”部分&#xff0c;那是在命令行…