GRNdb:解码不同人类和小鼠条件下的基因调控网络
- 摘要
- introduction
- 数据收集和处理
- Single-cell and bulk RNA-seq data collection and processing 单细胞和bulk RNA-seq 数据收集和处理
- Cell cluster identification for scRNA-seq datasets (scRNA-seq 数据集的细胞簇识别)
- Gene regulatory network reconstruction 基因调控网络重建
- 数据库内容和使用
- GRN 和各种人类和小鼠条件下的统计数据
- GRN 搜索、浏览和可视化
- 同时进行多个基因的基因表达及相关性研究
- 基因表达与癌症患者生存的关联分析
- 图表、数据下载
- 系统设计与实现
- 讨论
- 学习文献
这是利用scenic计算并制作的数据库,可以学习并使用一下
摘要
由转录因子(TF)及其下游靶基因形成的基因调控网络(GRN)在基因表达调控中发挥着重要作用。此外,GRN 可以在不同条件下动态变化,这对于理解疾病发病机制的潜在机制至关重要。然而,现有的数据库还没有提供单细胞水平上各种人类和小鼠正常组织和疾病的全面GRN信息。基于已知的TF-靶点关系和从公共数据库收集的大规模单细胞RNAseq数据以及癌症基因组图谱和基因型组织表达项目的大量数据,我们系统地预测了184种不同生理学的GRN。人类和小鼠的病理状况,涉及 > 633 000 个细胞和 > 27 700 个大样本。我们进一步开发了 GRNdb,一个可免费访问且用户友好的数据库(http://www.grndb.com/),用于搜索、比较、浏览、可视化和下载 77 746 个 GRN、19 687 841 个 TF-target 的预测信息单细胞/批量分辨率下的配对和相关结合基序。 GRNdb 还允许用户探索基因表达谱、相关性以及表达水平与不同癌症患者生存之间的关联。总体而言,GRNdb 为科学界阐明各种条件下基因表达调控的功能和机制提供了宝贵且及时的资源。
introduction
基因表达很大程度上受上游转录因子(TF)控制,通常表现出时空特异性。具体而言,每个细胞都有活性 TF 及其下游靶基因的特定组合,形成复杂的基因调控网络(GRN,称为调节子)(1,2)。因此,GRN 分析对于了解基因表达调控和细胞异质性的机制非常重要 (3)。 GRN 失调可能导致相关基因的异常表达变化,并导致疾病尤其是癌症的发展 (4)。一些数据库已经提供了不同生物体的已知或预测的 TF-靶点对,例如 AnimalTFDB 3.0 、TRRUST v2 和 RegNetwork,这些数据库主要关注 TF 与靶基因之间潜在的二元调控关系,没有GRN活性和相关基因表达谱的信息(见补充表S1)。由于 TF 可能在不同条件下调节不同的下游靶基因集 ,因此考虑基因表达调节的时空特异性至关重要。然而,现有的数据库还没有提供各种人类和小鼠条件下的 GRN 活性以及 TF 和相应靶基因的表达谱。
批量和单细胞 RNA 测序 (scRNA-seq) 技术及相关计算方法的发展为揭示表达动态和细胞异质性带来了前所未有的机会 (8,9)。特别是,scRNA-seq 还能够在单细胞水平上重建 GRN,并深入了解细胞类型特异性的表达调控 (2,10)。例如,我们最近发现 TF 可以调节人类胰岛不同亚型的不同基因集,并且 GRN 的动态是影响胰腺细胞表达异质性的主要因素之一 (11)。此外,在灵长类动物卵巢衰老过程中发现了细胞类型特异性氧化还原 GRN,这为临床诊断和治疗与年龄相关的人类卵巢疾病提供了潜在的新型生物标志物和治疗靶标 (12)。有研究发现 GRN 结构重编程可能在黑色素瘤的进展和治疗耐药性中发挥重要作用 (13)。此外,通过单细胞 GRN 分析发现,2019 年冠状病毒病 (COVID-19) 患者的支气管肺泡免疫细胞中细胞类型特异性 TF 的表达增强,这表明重症 COVID-19 患者的肺部具有高度促炎巨噬细胞微环境 (14)。因此,GRN 的活性以及 TF 和下游靶基因的表达谱对于充分了解表达异质性的潜在机制和多种疾病的发病机制至关重要。
对大量细胞/样本进行GRN重建非常耗时且消耗资源,对于非生物信息学用户来说很难进行此类分析。此外,目前还缺乏一个数据库来提供各种生理和病理条件下的GRN活性和相关基因表达谱。为了应对这些挑战,我们基于 184 种人类和小鼠状况的大规模单细胞数据以及来自癌症基因组的 33 种癌症的大量数据,全面推断了 GRN,并表征了相关 TF 和靶基因的表达谱。 Atlas (TCGA) (15) 和来自基因型组织表达 (GTEx) 项目 (16) 的 27 个正常组织。具体来说,我们开发了 GRNdb,一个用户友好且可免费访问的数据库,对总共 77 746 个调节子和 19 687 841 个 TF 靶点对的丰富信息进行了编目,使用户能够轻松探索不同正常组织下基因表达调控的情况和疾病。
数据收集和处理
Single-cell and bulk RNA-seq data collection and processing 单细胞和bulk RNA-seq 数据收集和处理
我们从 Gene Expression Omnibus (GEO, https://www.ncbi.nlm. nih.gov/geo/)(17) 和 ArrayExpress (https:// www.ebi.ac.uk/arrayexpress/)(18)。目前,GRNdb 包含 72 种不同正常组织和疾病/癌症的单细胞人类状况(332,920 个细胞),以及 41 种不同组织的单细胞小鼠状况(300 150 个细胞)。此外,我们还从 UCSC Xena (https://xena.ucsc.edu/)(19) 下载了多种 TCGA 癌症 (15) 的批量 RNA-seq 表达数据集以及各种正常人的 RNA-seq 表达数据来自 GTEx 的组织 (https://www.gtexportal.org/home/)(16)。为了保证基因调控网络推断的准确性,我们删除了那些包含<30个样本的数据集。 TCGA 共保留了 33 种不同癌症的 10,415 个样本,GTEx 共保留了 27 种不同正常组织的 17 333 个样本。 GRNdb 的“统计”页面上提供了各种人类和小鼠条件的原始数据的所有登录 ID。
Cell cluster identification for scRNA-seq datasets (scRNA-seq 数据集的细胞簇识别)
对于原始研究中具有可用细胞类型/簇注释信息的单细胞数据集,我们直接使用已知的细胞注释。如果 scRNA-seq 数据集没有可用的细胞类型/簇注释,我们采用 Seurat(版本 3.1.5)(20) 使用标准流程定义细胞簇。然后,使用 Seurat 中的 FindAllMarkers 功能识别给定数据集的每个细胞簇中表达显着富集的标记基因(调整后的 P 值 < 0.05)。
Gene regulatory network reconstruction 基因调控网络重建
我们根据每个数据集的基因表达矩阵和已知的 TF-motif 注释,使用 SCENIC pipeline(版本 1.1.0.1)(10) 预测了各种人类和小鼠条件下的基因调控网络。首先,SCENIC 采用 GENIE3 (21) 来检测与 TF 共表达的基因集,这已被证明优于其他 GRN 推断工具 (22)。然后,使用 RcisTarget (10)(版本 1.2.1,https://resources.aertslab.org/cistarget/)根据 cisTarget 数据库的基序-TF 注释推断 TF 的假定直接结合目标。最后,利用SCENIC(https://github.com/aertslab/SCENIC)的标准流程逐步识别调节子。每个已识别的活性调节子都包含一个 TF 及其下游靶基因。 GRNdb 中仅使用在给定基因集中过度呈现的最佳 TF 结合基序。对于此分析,SCENIC 使用了两个不同的数据库:(i) 对 TSS 500 bp 上游区域中的基序进行评分的数据库,以及 (ii) 对 TSS 周围 10 kb 空间进行评分的数据库。默认情况下,使用标准化富集分数(NES)> 3.0作为阈值来定义SCENIC管道中相应TF模块的显着富集主题,这对应于3%至9%之间的错误发现率(FDR)。
数据库内容和使用
GRN 和各种人类和小鼠条件下的统计数据
目前,GRNdb提供了143种不同人类生理和病理状况以及41种单细胞小鼠各种正常组织状况的详细调节子信息,涉及总共>633 070个单细胞和>27 700个大样本(图1A)。具体来说,人类数据集包含成人和胎儿不同正常组织的 72 个单细胞条件,以及不同肿瘤/疾病的生态系统和免疫微环境,以及涵盖 33 种 TCGA 癌症和 27 种 GTEx 正常组织的 71 个批量数据集。我们最近的研究进一步验证了 GRNdb 构建的 GRN 推理管道的稳健性 (11)。总共,在人类中检测到 70 651 个调节子(平均值:494 个,中位数:585 个),涉及 16 915 901 个 TF 目标对(平均值:118 293 个,中位数:每个条件 121 228 个),而 7095 个调节子(平均值:173 个)为小鼠确定了涉及 2 771 940 个 TFtarget 对(平均值:67 608 和中位数:每个组织 54 120)的 TFtarget 对(图 1B 和 C)。在数据库查询的结果表中,我们提供了最佳的TF绑定每个 TF-目标对的相关 TF 模块显着富集的基序(NES 值 > 3,等于 0.03 < FDR < 0.09)。
Figure 1. A schematic view of the GRNdb database. (A) Overview of data content and user interface of GRNdb. (B) Barplot showing the number of active regulons detected in diverse conditions of humans and mice. © Barplot displaying the number of TF-target pairs detected in various human and mouse conditions.
图 1.GRNdb 数据库的示意图。 (A) GRNdb 的数据内容和用户界面概述。 (B) 条形图显示在人类和小鼠的不同条件下检测到的活性调节子的数量。 © 条形图显示在各种人类和小鼠条件下检测到的 TF-目标对的数量。
GRN 搜索、浏览和可视化
在 GRNdb 的“搜索”页面上,用户可以探索他们感兴趣的 TF 或靶基因在人类和小鼠的不同单细胞/整体条件下的调控网络。我们提供了三种常用的基因格式作为输入,包括基因符号、Entrez ID 和 Ensembl (23) 基因 ID。对于 TF 查询,返回的结果包括基于特定条件下识别的所有重要调节子的 t 分布随机邻域嵌入 (t-SNE) 图、不同细胞类型/簇的标记表达热图和注释(不适用于批量条件) )、由查询 TF 和下游目标基因形成的调控网络、每个细胞/样本中该 TF 的调节子活性、TF 表达谱的 t-SNE 图、每个细胞类型/簇的 TF 表达小提琴图(不适用于批量条件),以及所涉及的 TF-目标对的详细信息表(图 2A-G)。对于目标基因搜索,它将返回在给定条件下激活的上游调节转录因子的结果。在生成的基因查询表中,所有的转录因子和目的基因均已链接至人类GeneCards(24)和小鼠MGI数据库(25),使用户可以方便地获取相关基因的详细功能和信息。用户只需点击相关链接即可剖析表格中每个TF和目标基因的表达谱,系统会在“表达”页面自动分析基因表达。此外,还提供了每个 TF-target 对的自动表达相关性分析的链接。用户还可以对包含 NES 值的列进行排序,以探索 TF-目标对。此外,我们将使用 cisTarget 数据库(10)的已知注释识别的 TF-目标对注释为 GRNdb 中的高置信度,而通过基序相似性检测到的 TF-目标对则注释为低置信度。此外,搜索页面上的“比较”功能使用户可以方便地比较人类和小鼠任意两种条件下的GRN,这可能有助于用户更深入地了解基因调控。
在“浏览”页面上,用户可以浏览 184 种不同的人类和小鼠条件下所有活动 TF-目标对的详细信息。特定条件的浏览结果包括基于在所选条件下检测到的所有重要调节子的 t-SNE 图、细胞/样本、调节子、TF、目标基因和 TF-目标对的数量统计条形图作为所有已识别的 TF-目标对的详细表格(图 2A、H 和 G)。
同时进行多个基因的基因表达及相关性研究
为了促进基因表达探索,GRNdb 使用户能够在“表达”页面上同时询问一系列基因的表达谱。查询基因的数量没有限制,输入的基因格式可以是基因符号、Entrez ID或Ensembl基因ID。如果用户想要剖析很多基因的表达谱,而不需要对基因进行一一研究,这个功能就非常有用。表达搜索将返回每个细胞/样本中基因表达的 t-SNE 图和每个细胞类型/簇中基因表达的小提琴图(不适用于批量条件)(图 2E 和 F)。
此外,“表达”页面还允许对输入基因集进行成对表达相关性分析。该功能默认开启,但如果不需要计算相关性,用户可以关闭该功能。在超过三个输入基因的情况下,将显示显示查询基因集的成对 Spearman 相关性的热图,以及每对输入基因之间表达相关性的散点图(图 2I 和 J)。否则,只会返回两个查询基因之间 Spearman 相关性的一张散点图,并且如果只有一个基因可用,则相关性分析将被停用。
基因表达与癌症患者生存的关联分析
考虑到癌症研究中的一个重要分析是检查相关基因的表达水平是否与某些癌症的患者生存显着相关,我们在“生存”页面开发了33种不同TCGA癌症的生存分析功能。为了方便起见,对查询基因的数量没有限制,可以选择基因符号、Entrez ID、Ensembl基因ID三种输入格式。我们使用了Python package of lifelines(26)来进行生存分析,并使用中位表达水平作为分界线将癌症患者分为两个不同的组。使用 Logrank 检验计算每个基因的 P 值,这表明基因表达是否可以将患者分为生存时间显着不同的两组(图 2K)。用户可以利用 P 值 <0.05 的常见阈值来定义显着性。除了生存分析之外,我们还为查询基因提供了在相关癌症中检测到的TF-靶标调控网络,使用户能够深入了解其感兴趣基因的表达调控。
图表、数据下载
“搜索”、“浏览”、“表达”、“生存”页面生成的所有图形都可以通过点击相应图块右上角的下载标志进行下载。此外,还可以通过单击“下载”链接以 Excel 格式获取包含条件、数据类型(单细胞或批量)、TF、目标基因、TF 结合基序、NES 值和置信度详细信息的结果表在桌子下面。此外,在GRNdb的“下载”页面上,用户可以获得包含在人类和小鼠的不同条件下识别的所有活性TF-靶标对的详细信息的矩阵。每个矩阵都是纯文本格式,不同列使用制表符分隔符。用户可以自由地利用这些图并探索他们在研究中下载的表格。
系统设计与实现
讨论
由于基因通常表现出空间和时间特异性表达,因此由 TF 和下游靶基因形成的 GRN 也会在不同条件或细胞类型/状态下动态变化 (11,27,28)。此外,细胞的基因表达谱受到活性调节子的调节,这与单个细胞的表达异质性和表型密切相关(29)。批量和单细胞 RNA 测序技术极大地促进了大规模样本/细胞中的 GRN 探索,为表征基因表达调控和疾病发展的潜在机制提供了绝佳的机会 (22)。然而,现有数据库中现有的人类和小鼠的TF-靶点调控信息普遍缺乏TF和靶基因的调节子活性和表达信息。因此,我们开发了用户友好的GRNdb数据库,供用户自由访问不同人类和小鼠条件下活性调节子的详细信息。
目前,GRNdb 提供了 184 种不同生理和病理条件的 GRN 图谱,涉及 633,070 个细胞和 27,748 个批量样本。 GRNdb 中分别提供了人类和小鼠的 70 651 个调节子(16 915 901 个 TF-靶点对)和 7095 个调节子(2 771 940 个 TF-靶点对)。 GRNdb 中的所有调控都是根据组学数据预测的,这对于未来的实验验证很有价值。用户可以轻松探索和可视化各种条件下的 GRN 和相关基因表达谱。例如,“搜索”页面可以对 TF 和目标基因进行 GRN 研究和表达谱分析(例如,头颈癌中的 TF HSPA5,图 2),而“浏览”页面则可以检查每种条件下所有已识别 GRN 的详细信息(图 2)。 2)。此外,用户可以分别在“表达”和“生存”页面上询问其感兴趣基因的表达谱和癌症生存情况(图2)。总的来说,GRNdb 为研究界提供了丰富而宝贵的资源,可以帮助他们更好地了解各种正常组织和疾病中的 TF 靶点调控。我们相信 GRNdb 将帮助用户揭示基因表达动态和疾病发病机制的潜在机制。我们将继续维护 GRNdb 并更新它以包含更多的人类和小鼠数据集。
GRNdb 数据库可免费访问 http://www.grndb.com/ 以用于非商业用途。用户无需注册或登录即可访问数据库中的任何可用数据。
学习文献
GRNdb: decoding the gene regulatory networks in diverse human and mouse conditions
Li Fang, Yunjin Li, Lu Ma, Qiyue Xu, Fei Tan, Geng Chen, GRNdb: decoding the gene regulatory networks in diverse human and mouse conditions, Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D97–D103, https://doi.org/10.1093/nar/gkaa995