单细胞scATAC-seq测序基础知识笔记
- 单细胞ATAC测序前言
- scATAC-seq数据怎么得出的?
该笔记来源于 Costa Lab - Bioinformatics Course
另一篇关于scRNA-seq的请移步
单细胞ATAC测序前言
因为我的最终目的是scATAC-seq的数据,所以这部分只是分享下我刚学的(不是)相关的生物学知识,而且我本身也没有生物学的背景知识,所以我尽量从计算机专业的角度去理解这些内容,数据的介绍下边那一节。
首先是细胞分化,同一来源的细胞可以分化成不同功能和类型的细胞,是因为虽然它们都具有相同的DNA,但是起作用(专业的叫 “基因表达”)部分的DNA是不同的。如下图,DNA长链很多部位是紧缩在一起的,这些就不表达,只有打开链的基因部分才会表达,而我们现在就要获取打开的这部分基因的数据。
scATAC-seq数据怎么得出的?
接下来的才是重点,首先我们拿到了一堆样本细胞(正常来说应该是切片组织,薄薄一片肉?哈哈),然后使用 TN5酶,这个酶会将打开的基因切断,我们就得到了来自一大堆细胞的一大堆DNA片段。如下图所示,绿色的就是TN5酶,它的红色和蓝色部分相当于剪刀一样,会切断DNA片段。
如下图,剪开了DNA,得到很多片段
然后!我们先做一个 alignment(做个对齐吧),这样就能知道各个基因片段相对整条DNA的位置,然后我们统计这些基因片段的位置,如下图下边那条曲线,在某个位置的基因片段越多就形成了一个峰值 (peak calling),当然统计出来在不同位置会有很多个这样的“山峰”,这样我们就知道了峰值位置的基因是关注的重点,然后我们以峰值的最高峰那个位置,为中心,设定这个峰的一个位置范围。
然后再拿着这些峰的位置范围,再回去统计,单个细胞的各个DNA片段,看有哪些片段落在了哪个峰的范围内,最后就得到一个统计矩阵。
scATAC-seq矩阵数据如下图,列是每一个细胞,行是每个峰,里面的数字,比如左上角第一个数字 “0” 表示细胞 cell-1 在峰 peak-1 这里没有基因片段,就等于是这部分的DNA链它没打开也就没表达。
而 cell-3 peak-2这个点的数字 “2” 表示这个细胞的peak2峰值范围内有两段基因片段在这个范围内。
嗯,大概就是这样就得到了scATAC-seq的数据.