R与Python,在生物信息学领域的博弈异常激烈。许多生信分析,两个阵营都发展出了自己的方法,比如单细胞数据分析,R有Seurat,Python就有Scanpy。这些层出不穷的方法不断地吸引着吃瓜群众的眼球,同时也让人患上了选择困难症。
到底谁优谁劣?一时竟难分高下。今天我们就以吃瓜的心态来看看两个阵营在单细胞数据分析方面的博弈。
R语言单细胞分析最佳实践
首先出场的是 Orchestrating Single-Cell Analysis with Bioconductor (Bioconductor OSCA)。由 Bioconductor 出品,旨在传授基于 R 的 Bioconductor 生态系统分析单细胞 RNA-Seq 的常见工作流程。其电子书网址是:https://bioconductor.org/books/release/OSCA/。
一篇同名论文[Amezquitaet al., 2020] 概述了使用 Bioconductor 进行单细胞分析。但在线的电子书含有大量示例代码,更详细。不过,OSCA 不包括其他单细胞组学,例如 scATAC-seq。空间转录组学在补充的 Orchestrating Spatially-Resolved Transcriptomics Analysis with Bioconductor (Bioconductor OSTA) 一书 (https://lmweber.org/OSTA-book/) 中进行了介绍。由于这些书籍是为 Bioconductor 生态系统设计的,因此它们仅使用 Bioconductor 上可用的工具。这些并不一定能得出书中所描述的最佳分析结果。Bioconductor 书籍对具有基本 R 和更强生物学背景的人特别有用,他们有兴趣学习如何使用 Bioconductor 分析单细胞和空间转录组学数据。
Python单细胞分析最佳实践
Python也不遑多让,好事者也推出了基于 Python 的单细胞分析最佳实践。电子书网址:
https://www.sc-best-practices.org/preamble.html,该书详细介绍了单细胞数据分析。有理论讲解和大量示例代码,并且一直处于更新当中。
作者团队先是在 2019 年发表了一篇论文:Current best practices in single‐cell RNA‐seq analysis: a tutorial,介绍了单细胞 RNA-Seq 分析的最佳实践。与Bioconductor OSCA 相比,这篇论文和示例分析没有受到其展示的工具的偏见,并且在涵盖主题的广度方面内容更加完整。
2023年,同一团队发表了新的论文:Best practices for single-cell analysis across modalities。提出了最新的最佳实践。其示例代码以 Python 为主,可以说是与 Bioconductor OSCA 针锋相对了。大家该如何选择呢?
海纳百川
正所谓海纳百川,有容乃大。我们在选择工具的时候,可以有偏见,但不能固执。Galaxy生信云平台(UseGalaxy.CN)就汇聚了大量生物信息学工具,不管是 R,Python 抑或是其他语言开发的,只要足够优秀,平台都做了整合,供大家自由选择。单细胞方面,就整合了基于 Seurat 和 Scanpy 的最佳分析实践,欢迎大家使用。
参考文献
Orchestrating single-cell analysis with bioconductor. https://bioconductor.org/books/release/OSCA/, 2022.
Orchestrating single-cell analysis with bioconductor. Nature Methods, 2022
A single-cell survey of the small intestinal epithelium. Nature, 2017
Orchestrating high-throughput genomic analysis with bioconductor. Nature Methods, 2015
Current best practices in single-cell term`rna`-seq analysis: a tutorial. Molecular Systems Biology, 2019
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。