人类基因组计划是科学史上重要的里程碑事情。该计划的成功,不仅开启了人类了解自身的旅程,而且成为了国际科技合作的典范。对于人类基因组,发现了以下 8 个事实。
1. 人类基因组约有 20300 个蛋白质编码基因。这与最初预估的 30000 ~ 40000 个相去甚远。这是个令人惊讶的发现,因为我们的基因数与拟南芥(Arabidopsis thaliana,根据 TAIR 约有 27000 个蛋白质编码基因)和河豚(puffer fish,根据 Ensembl 约有 18500 个蛋白质编码基因)这些更简单的生物的基因数大致相同。而很多线虫和昆虫的基因都比人类的多。
2. 人类蛋白质组比无脊椎动物基因组所编码的蛋白质集复杂得多。脊椎动物具有更为复杂的蛋白质域结构的组合。另外,在 mRNA 转录本加工过程中,人类基因组通过可变剪切表现出了更大的复杂性。
3. 据最初的报导,数以百计的人类基因都是从细菌中通过基因的横向转移而来。随后,新的估计是约有40个基因经历了水平转移。这些基因与细菌的序列同源,但与其他脊椎动物与非脊椎动物没有同源性。近些年的研究重点已经从通过横向转移获取的基因转到大量的寄居在人体内的细菌、古细菌和病毒的基因,被称为人体微生物学。
4. 超过 98%的人类基因组不编码蛋白质。这些非编码的基因组区域大部分被重复的 DNA 元件所占据,如长散在序列(LINEs,20%)、短散在序列(SINEs,13%)、长末端重复(LTR)反转录转座子(8%)和 DNA 转座子(3%)。因此,人类基因组的一半来源于可转座元件。尽管如此,在人类谱系中这些元件的活性已有所下降。近年来 DNA 元件百科全书计划(ENCODE)已经建立了一个人类基因组功能元件深度富集的目录 。这个计划定义了编码基因与非编码基因组结构,对普遍性转录活动进行分类,定义了诸如染色质修饰等不同的生化信号。
5. 人类基因组中频繁发生片段扩增,尤其在中心体周围(pericentromeric)和端粒下区(subtelomeric)。人类基因组上的片段扩增比酵母、果蝇或是线虫基因组更为普遍。人类基因组上基因扩增的发生有三种主要的方式。一是罕见的串联扩增(局部区域内一段序列的多次复制);二是由处理后的 mRNA 通过逆转录转座引起扩增,在一个或多个位点产生无内含子的旁系同源基因;三是最普遍的,染色体的大片段向另一位点转移时发生的片段扩增。
6. 人类基因组中有数十万个 Alu 重复,曾被认为是偶然杂乱复制的典型元件。但是,这些元件的分布并不是随机的:它们保留在 GC 含量高的区域。因此,可能对人类基因组有某些益处。
7. 男性减数分裂的突变率大约是女性的 2 倍,这暗示大部分突变是在男性中发生的。
8. 人类基因组中含有大量单核苷酸多态性(SNP)位点。SNP 是单个核苷酸的变异,约每 100 ~ 300bp 会有一个。
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。