来源:生物通
一个研究小组终于完成了人类基因组的序列,填满了基因组30亿个核苷酸的最后8%。这些区域很难放在染色体上,因为它们的重复性很强。在着丝粒周围,新增加的序列揭示了随着时间推移而增加的重复DNA层,这可能有助于揭示非洲人类进化的细节。对染色体分离至关重要的着丝粒区域,可以为分离障碍提供线索。
当研究人员比较来自世界各地的1600人的着丝粒区域时,他们发现那些没有最近非洲血统的人大多有两种序列变异。这两种变化的比例由圆圈内的黑色和浅灰色的楔子表示,它们被放置在地图上每组个体被取样的位置附近。那些来自非洲或其他地区的人有很大比例的新近非洲血统,如加勒比人,有更多的着丝粒序列变异,以多色的楔形为代表。这些变异可以帮助追踪着丝粒区是如何进化的,以及这些基因变异与健康和疾病的关系。
2003年科学家宣布人类基因组的完整序列时,他们有点含糊其辞。
事实上,近20年后,大约8%的基因组从未被完全测序,这主要是因为它由高度重复的DNA片段组成,很难与其他片段对齐。
但是,一个成立三年的联盟最终填充了剩余的DNA,为科学家和医生提供了第一个完整的、无间隙的基因组序列。
新完成的基因组被称为T2T-CHM13,代表着当前参考基因组GRCh38的重大升级。医生在搜索与疾病相关的突变时,以及科学家在研究人类基因变异的进化时,都会使用GRCh38。
除此之外,新的DNA序列揭示了以前从未见过的着丝粒周围区域的细节。着丝粒是细胞分裂时染色体被抓取和分离的地方,确保每个“子”细胞继承正确数量的染色体。这一地区的变化也可能为我们的人类祖先在非洲的进化提供新的证据。
“发现这些以前缺失的基因组的完整序列告诉我们很多关于它们是如何组织的,这对于许多染色体是完全未知的,”加利福尼亚大学的博士后研究员Nicolas Altemose和四篇关于完整基因组的新论文的合著者说。“以前,我们对那里的情况只有最模糊的描述,而现在,它清晰到了单碱基对的分辨率。”
Altemose是描述着丝粒周围碱基对序列的论文的第一作者。一篇解释测序是如何完成的论文将发表在4月1日出版的《Science》杂志上,而Altemose的着丝粒论文和其他四篇描述新序列告诉我们的内容的论文在期刊上进行了总结,全文发布在网上。4月1日,《Nature Methods》杂志也在线发表了四篇论文,其中一篇是Altemose的联合第一作者。
测序和分析是由一个由100多人组成的团队进行的,该团队被称为Telere to Terome Consortium,简称T2T,以覆盖所有染色体末端的端粒命名。该联盟的22个常染色体和X性染色体的无间隙版本由30.55亿个碱基对和19969个蛋白质编码基因组成,这些碱基对是构成染色体和我们基因的单位。在编码蛋白质的基因中,T2T团队发现了大约2000个新的基因,其中大多数已被禁用,但其中115个可能仍在表达。他们还在人类基因组中发现了大约200万个额外的变种,其中622个发生在医学相关基因中。
T2T的领导者之一、美国国家卫生研究院国家人类基因组研究所(NHGRI)的高级研究员Adam Phillippy说:“当他们的基因组测序能够更好地用于他们的国家健康研究院的基因组测序时。真正完成人类基因组序列就像戴上一副新眼镜。现在我们可以清楚地看到一切,我们离理解这一切意味着什么又近了一步。”
进化中的着丝粒
着丝粒及其周围的新DNA序列占整个基因组的6.2%,即近1.9亿个碱基对或核苷酸。在剩余的新添加序列中,大多数是在每个染色体末端的端粒周围以及核糖体基因周围的区域发现的。整个基因组仅由四种核苷酸组成,三种核苷酸一组编码用于构建蛋白质的氨基酸。Altemose的主要研究包括发现和探索蛋白质与DNA相互作用的染色体区域。
“没有蛋白质,DNA就什么都不是,”Altemose说,他在获得U.S.伯克利和加州大学旧金山分校的生物工程博士学位后,于2021获得D.Piel.牛津大学的数据统计博士学位。“DNA是一组指令,如果周围没有蛋白质来组织、调节、修复受损的DNA并复制它,就没有人去读它。蛋白质-DNA相互作用是基因组调节的所有动作发生的地方,能够绘制某些蛋白质与基因组结合的位置对于理解它们的功能非常重要。”
在T2T联盟对缺失的DNA进行测序后,Altemose和他的团队使用新技术在着丝粒内找到一个称为动粒的大蛋白质复合体牢牢抓住染色体的位置,以便细胞核内的其他机器可以将染色体对分开。
他说:“当这个过程出错时,你最终会出现染色体错配,这会导致各种各样的问题。如果这种情况发生在减数分裂中,这意味着你可能会有染色体异常,导致自发流产或先天性疾病。如果发生在体细胞中,你可能最终患上癌症——基本上,就是有大量失调的细胞。”
他们在着丝粒内部和周围发现的是新序列的层叠层,覆盖着旧序列的层叠层,仿佛通过进化,新的着丝粒区域已被反复放置以与动粒结合。较老的区域具有更多随机突变和缺失的特征,表明细胞不再使用这些区域。动粒结合的新序列的变异性小得多,甲基化也少。甲基的加入是一种表观遗传标签,它往往会使基因沉默。
着丝粒内部和周围的所有层都由DNA的重复长度组成,以约171个碱基对为单位,大致相当于DNA的长度,它包裹着一组蛋白质形成核小体,保持DNA的包装和紧凑。这171个碱基对单元形成了更大的重复结构,它们被串联多次重复,在着丝粒周围形成了一个大范围的重复序列。
T2T团队只关注一个人类基因组,该基因组来自一种名为葡萄胎的非癌性肿瘤。葡萄胎本质上是一种人类胚胎,拒绝母体DNA,并复制其父系DNA。这样的胚胎会死亡并转化为肿瘤。但事实上,这只葡萄瘤有两份完全相同的父系DNA——都是父亲的X染色体,而不是母亲和父亲的不同DNA——这使得测序变得更容易。
Altemose说,研究人员本周还公布了来自不同来源的Y染色体的完整序列,该序列的组装时间几乎与基因组其他部分的总和一样长。对这一新Y染色体序列的分析将在未来的出版物中发表。
Altemose和他的团队也使用新的参考基因组作为支架,对来自世界各地的1600个个体的着丝粒DNA进行比较,揭示了着丝粒周围重复DNA的序列和拷贝数的重大差异。以前的研究表明,当远古人类从非洲迁徙到世界其他地方时,他们只采集了一小部分基因变异样本。Altemose和他的团队证实,这种模式延伸到着丝粒。
Altemose说:“我们发现,在非洲大陆以外最近有祖先的个体中,他们的着丝粒,至少在X染色体上,倾向于分成两大簇,而大多数有趣的变异发生在最近有非洲祖先的个体中。鉴于我们对基因组其他部分的了解,这并不完全令人惊讶。但它表明,如果我们想研究这些着丝粒区域有趣的变异,我们真的需要集中精力对更多非洲基因组进行测序,并完成端粒到端粒序列的组装。”
他指出,着丝粒周围的DNA序列也可以用来追踪人类谱系,追溯到我们共同的猿祖先。
Altemose说:“当你离开活动着丝粒的位置时,你会得到越来越多的退化序列,如果你走到这片重复序列海洋的最远海岸,你会开始看到古代的着丝粒,也许我们遥远的灵长类祖先曾经与动粒结合。它几乎就像一层层的化石。”
长读长是游戏规则的改变者
T2T的成功得益于一次测序长片段DNA的技术改进,这有助于确定DNA高度重复片段的顺序。其中包括PacBio的HiFi测序,它可以高精度读取超过20000个碱基对的长度。另一方面,牛津纳米孔技术有限公司开发的技术可以按顺序读取多达数百万个碱基对,但保真度较低。相比之下,Illumina Inc.所谓的新一代测序仅限于数百个碱基对。
Altemose说:“这些新的长读DNA测序技术令人难以置信;它们是这样的游戏规则的改变者,不仅是对于这个重复的DNA世界,而且因为它们允许你对单个DNA长分子进行测序。你可以开始以之前不可能的分辨率提问,即使是短读测序方法也不行。”
Altemose计划进一步探索着丝粒区域,使用他和斯坦福大学的同事开发的一种改进技术,精确定位染色体上与蛋白质结合的位点,类似于动粒与着丝粒的结合方式。这项技术也使用长读取测序技术。他和他的团队在本周发表在《Nature Methods》杂志上的一篇论文中描述了这项技术,称为长读序列定向甲基化(DiMeLo-seq)。
与此同时,T2T联盟正在与人类泛基因组参考联盟合作,致力于开发代表全人类的参考基因组。
Altemose说:“我们应该有一个代表所有人的参考,而不是一个人类个体或一个葡萄胎(甚至不是真正的人类个体)的参考。关于如何实现这一点,有各种各样的想法。但我们首先需要的是对这种变异的理解,我们需要大量高质量的个体基因组序列来实现这一点。”
参考文献
1.Complete genomic and epigenetic maps of human centromeres
2.DiMeLo-seq: a long-read, single-molecule method for mapping protein-DNA interactions genome-wide
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”