《Science》重磅:终于完成了!迄今为止最完整的人类基因组

f7eb60b182de55605d7113f91beff3c9.png

来源:生物通

一个研究小组终于完成了人类基因组的序列,填满了基因组30亿个核苷酸的最后8%。这些区域很难放在染色体上,因为它们的重复性很强。在着丝粒周围,新增加的序列揭示了随着时间推移而增加的重复DNA层,这可能有助于揭示非洲人类进化的细节。对染色体分离至关重要的着丝粒区域,可以为分离障碍提供线索。

95e78280c91a148f8eaa7594f222505e.png

当研究人员比较来自世界各地的1600人的着丝粒区域时,他们发现那些没有最近非洲血统的人大多有两种序列变异。这两种变化的比例由圆圈内的黑色和浅灰色的楔子表示,它们被放置在地图上每组个体被取样的位置附近。那些来自非洲或其他地区的人有很大比例的新近非洲血统,如加勒比人,有更多的着丝粒序列变异,以多色的楔形为代表。这些变异可以帮助追踪着丝粒区是如何进化的,以及这些基因变异与健康和疾病的关系。

2003年科学家宣布人类基因组的完整序列时,他们有点含糊其辞。

事实上,近20年后,大约8%的基因组从未被完全测序,这主要是因为它由高度重复的DNA片段组成,很难与其他片段对齐。

但是,一个成立三年的联盟最终填充了剩余的DNA,为科学家和医生提供了第一个完整的、无间隙的基因组序列。

新完成的基因组被称为T2T-CHM13,代表着当前参考基因组GRCh38的重大升级。医生在搜索与疾病相关的突变时,以及科学家在研究人类基因变异的进化时,都会使用GRCh38。

除此之外,新的DNA序列揭示了以前从未见过的着丝粒周围区域的细节。着丝粒是细胞分裂时染色体被抓取和分离的地方,确保每个“子”细胞继承正确数量的染色体。这一地区的变化也可能为我们的人类祖先在非洲的进化提供新的证据。

“发现这些以前缺失的基因组的完整序列告诉我们很多关于它们是如何组织的,这对于许多染色体是完全未知的,”加利福尼亚大学的博士后研究员Nicolas Altemose和四篇关于完整基因组的新论文的合著者说。“以前,我们对那里的情况只有最模糊的描述,而现在,它清晰到了单碱基对的分辨率。”

Altemose是描述着丝粒周围碱基对序列的论文的第一作者。一篇解释测序是如何完成的论文将发表在4月1日出版的《Science》杂志上,而Altemose的着丝粒论文和其他四篇描述新序列告诉我们的内容的论文在期刊上进行了总结,全文发布在网上。4月1日,《Nature Methods》杂志也在线发表了四篇论文,其中一篇是Altemose的联合第一作者。

测序和分析是由一个由100多人组成的团队进行的,该团队被称为Telere to Terome Consortium,简称T2T,以覆盖所有染色体末端的端粒命名。该联盟的22个常染色体和X性染色体的无间隙版本由30.55亿个碱基对和19969个蛋白质编码基因组成,这些碱基对是构成染色体和我们基因的单位。在编码蛋白质的基因中,T2T团队发现了大约2000个新的基因,其中大多数已被禁用,但其中115个可能仍在表达。他们还在人类基因组中发现了大约200万个额外的变种,其中622个发生在医学相关基因中。

T2T的领导者之一、美国国家卫生研究院国家人类基因组研究所(NHGRI)的高级研究员Adam Phillippy说:“当他们的基因组测序能够更好地用于他们的国家健康研究院的基因组测序时。真正完成人类基因组序列就像戴上一副新眼镜。现在我们可以清楚地看到一切,我们离理解这一切意味着什么又近了一步。”

进化中的着丝粒

着丝粒及其周围的新DNA序列占整个基因组的6.2%,即近1.9亿个碱基对或核苷酸。在剩余的新添加序列中,大多数是在每个染色体末端的端粒周围以及核糖体基因周围的区域发现的。整个基因组仅由四种核苷酸组成,三种核苷酸一组编码用于构建蛋白质的氨基酸。Altemose的主要研究包括发现和探索蛋白质与DNA相互作用的染色体区域。

“没有蛋白质,DNA就什么都不是,”Altemose说,他在获得U.S.伯克利和加州大学旧金山分校的生物工程博士学位后,于2021获得D.Piel.牛津大学的数据统计博士学位。“DNA是一组指令,如果周围没有蛋白质来组织、调节、修复受损的DNA并复制它,就没有人去读它。蛋白质-DNA相互作用是基因组调节的所有动作发生的地方,能够绘制某些蛋白质与基因组结合的位置对于理解它们的功能非常重要。”

在T2T联盟对缺失的DNA进行测序后,Altemose和他的团队使用新技术在着丝粒内找到一个称为动粒的大蛋白质复合体牢牢抓住染色体的位置,以便细胞核内的其他机器可以将染色体对分开。

他说:“当这个过程出错时,你最终会出现染色体错配,这会导致各种各样的问题。如果这种情况发生在减数分裂中,这意味着你可能会有染色体异常,导致自发流产或先天性疾病。如果发生在体细胞中,你可能最终患上癌症——基本上,就是有大量失调的细胞。”

他们在着丝粒内部和周围发现的是新序列的层叠层,覆盖着旧序列的层叠层,仿佛通过进化,新的着丝粒区域已被反复放置以与动粒结合。较老的区域具有更多随机突变和缺失的特征,表明细胞不再使用这些区域。动粒结合的新序列的变异性小得多,甲基化也少。甲基的加入是一种表观遗传标签,它往往会使基因沉默。

着丝粒内部和周围的所有层都由DNA的重复长度组成,以约171个碱基对为单位,大致相当于DNA的长度,它包裹着一组蛋白质形成核小体,保持DNA的包装和紧凑。这171个碱基对单元形成了更大的重复结构,它们被串联多次重复,在着丝粒周围形成了一个大范围的重复序列。

T2T团队只关注一个人类基因组,该基因组来自一种名为葡萄胎的非癌性肿瘤。葡萄胎本质上是一种人类胚胎,拒绝母体DNA,并复制其父系DNA。这样的胚胎会死亡并转化为肿瘤。但事实上,这只葡萄瘤有两份完全相同的父系DNA——都是父亲的X染色体,而不是母亲和父亲的不同DNA——这使得测序变得更容易。

Altemose说,研究人员本周还公布了来自不同来源的Y染色体的完整序列,该序列的组装时间几乎与基因组其他部分的总和一样长。对这一新Y染色体序列的分析将在未来的出版物中发表。

Altemose和他的团队也使用新的参考基因组作为支架,对来自世界各地的1600个个体的着丝粒DNA进行比较,揭示了着丝粒周围重复DNA的序列和拷贝数的重大差异。以前的研究表明,当远古人类从非洲迁徙到世界其他地方时,他们只采集了一小部分基因变异样本。Altemose和他的团队证实,这种模式延伸到着丝粒。

Altemose说:“我们发现,在非洲大陆以外最近有祖先的个体中,他们的着丝粒,至少在X染色体上,倾向于分成两大簇,而大多数有趣的变异发生在最近有非洲祖先的个体中。鉴于我们对基因组其他部分的了解,这并不完全令人惊讶。但它表明,如果我们想研究这些着丝粒区域有趣的变异,我们真的需要集中精力对更多非洲基因组进行测序,并完成端粒到端粒序列的组装。”

他指出,着丝粒周围的DNA序列也可以用来追踪人类谱系,追溯到我们共同的猿祖先。

Altemose说:“当你离开活动着丝粒的位置时,你会得到越来越多的退化序列,如果你走到这片重复序列海洋的最远海岸,你会开始看到古代的着丝粒,也许我们遥远的灵长类祖先曾经与动粒结合。它几乎就像一层层的化石。”

长读长是游戏规则的改变者

T2T的成功得益于一次测序长片段DNA的技术改进,这有助于确定DNA高度重复片段的顺序。其中包括PacBio的HiFi测序,它可以高精度读取超过20000个碱基对的长度。另一方面,牛津纳米孔技术有限公司开发的技术可以按顺序读取多达数百万个碱基对,但保真度较低。相比之下,Illumina Inc.所谓的新一代测序仅限于数百个碱基对。

Altemose说:“这些新的长读DNA测序技术令人难以置信;它们是这样的游戏规则的改变者,不仅是对于这个重复的DNA世界,而且因为它们允许你对单个DNA长分子进行测序。你可以开始以之前不可能的分辨率提问,即使是短读测序方法也不行。”

Altemose计划进一步探索着丝粒区域,使用他和斯坦福大学的同事开发的一种改进技术,精确定位染色体上与蛋白质结合的位点,类似于动粒与着丝粒的结合方式。这项技术也使用长读取测序技术。他和他的团队在本周发表在《Nature Methods》杂志上的一篇论文中描述了这项技术,称为长读序列定向甲基化(DiMeLo-seq)。

与此同时,T2T联盟正在与人类泛基因组参考联盟合作,致力于开发代表全人类的参考基因组。

Altemose说:“我们应该有一个代表所有人的参考,而不是一个人类个体或一个葡萄胎(甚至不是真正的人类个体)的参考。关于如何实现这一点,有各种各样的想法。但我们首先需要的是对这种变异的理解,我们需要大量高质量的个体基因组序列来实现这一点。”

参考文献

1.Complete genomic and epigenetic maps of human centromeres

2.DiMeLo-seq: a long-read, single-molecule method for mapping protein-DNA interactions genome-wide

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

ec604e5b10a14c8e966f52dffac68627.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题

来源:SiliconANGLE出品:科技行者撰文:海外来电图片:海外来电为了解决两性人物传记比例失衡的情况,Meta操碎了心。维基百科一直是全球访问量Top 10的网站,是许多人搜索历史人物与领创者资讯的第一站&#xf…

RISC-V正在采取行动,避免MIPS类的碎片化

来源:半导体行业观察在技术重量级人物的支持下,RISC-V 不断增长,但也带来了挑战:鼓励 CPU 设计人员保持一致,并避免MIPS和Android中发生的那种碎片化。考虑到这一点,协调开源指令集架构 (ISA) 开发的 RISC-…

复旦副教授魏忠钰:AI和人类对垒「奇葩说」,如何打造智能辩手?

来源: 智源社区作者:魏忠钰整理:熊宇轩导读:想象一下,在一场AI和人类对垒的「奇葩说」,智能辩手的表现会如何?论辩的过程,既需要理解对方的表达,同时根据对方的观点生成自…

EleutherAI:当OpenAI不够开放时,我们该如何选择?

来源:ScienceAI编辑:萝卜皮人工智能最令人不安的事情之一是它超越了人类控制、遏制或规范它的权力。然而,它可能会产生可怕的结果,例如药物发现人工智能最近错误地发现了可用作化学武器的致命毒素。今天,没有比 Eleuth…

星地融合→→→6G移动通信关键技术的未来

来源:人民邮电报作者:柯文卫星通信与地面移动通信融合构建全球无缝覆盖的星地融合网络,这一趋势作为未来6G网络技术发展的重要方向得到业界广泛认可,成为当前学术界和产业界研究的热点。  中国信科副总经理、专家委主任&#xf…

这就是深度学习如此强大的原因

来源:ScienceAI编译:绿萝据报道称,由于采用基于云的技术和在大数据中使用深度学习系统,深度学习的使用在过去十年中迅速增长,预计到 2028 年,深度学习的市场规模将达到 930 亿美元。但究竟什么是深度学习&a…

Java基础语法之Map

浅谈Map及其遍历的四种方式 Map简介 Map提供了一种映射关系,其中的元素是以键值对(key-value)的形式存储的,Map中的键值对以Entry类型的对象实例形式存在;Map集合没有继承Collection接口,其提供的是key到value的映射…

谁是ASML的最大股东?为何荷兰光刻巨头要听美国的话?

来源:EETOP整理:technews目前能生产7 纳米以下芯片的极紫外光(EUV) 光刻机,只有荷兰ASML,ASML可说是掌握全球芯片先进制程的关键。ASML 的EUV 光刻机通常优先供货给台积电、三星、英特尔三家,其他要买都要排在三家之后…

SpringMVC详细执行流程与组件说明

SpringMVC详细执行流程与组件说明 文章目录SpringMVC详细执行流程与组件说明1.SpringMVC架构流程2.流程图3.组件说明1.SpringMVC架构流程 用户发送请求至前端控制器DispatcherServlet; DispatcherServlet收到请求调用HandlerMapping处理器映射器; 处理器映射器根据前端请求的…

机器学习的重新思考:人工智能如何学习“失忆”?

来源:Samuel Greengard作者:Samuel Greengard编译:维克多机器学习已经成为各行各业的宝藏工具,常被用来构建系统,帮助人们发现那些容易忽略的细节,并辅助决策。尽管已经取得了惊艳的结果,但是也…

浅谈Spring IOC和DI及Spring工厂类

浅谈Spring IOC和DI及Spring的工厂类 文章目录浅谈Spring IOC和DI及Spring的工厂类一. IOC1.什么是IOC2.为什么使用IOC传统开发模式的弊端3. 使用spring-IOC步骤二. DI1.什么是DI2.传统面向接口编程2.使用DI方式三. Spring的工厂类一. IOC 1.什么是IOC ​ IOC: Inversion of …

城市大脑标准体系与评价指标总体框架研究

来源:城市大脑全球标准研究组根据城市大脑标准的前期研究和中国指挥与控制学会(CICC)《城市大脑建设规范》标准启动会的专家意见,形成城市大脑标准体系与评价指标总体框架(如图1所示),供各位专家探讨&#…

AOP和Spring AOP介绍

AOP和Spring AOP介绍 文章目录AOP和Spring AOP介绍一.AOP简介二. 传统开发存在的弊端三. AOP实现原理四.Spring AOP五.AOP相关术语一.AOP简介 AOP为Aspect Oriented Programming的缩写,意为:面向切面编程。是OOP的延续,是软件开发中的一个热…

新鲜出炉!大规模神经网络最新综述!

来源:arXiv编译:机器之心在本综述论文中,研究者解释了不同技术的工作原理、评估和比较,还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络(DNN)来解决图像、视频、音…

数据结构与算法理论概述

数据结构与算法理论概述 文章目录数据结构与算法理论概述数据结构概述◆ 数据结构涵盖的内容◆ 存储数据算法概述◆ 算法的基本特性◆ 算法设计要求◆ 算法分析数据结构概述 狭义上:数据结构是专门研究数据存储的问题; 数据的存储包括:个体的…

战略性基础研究的由来及国际实践研究

来源:微信公众号中国科学院院刊,原载:《中国科学院院刊》2022年第3期作者:阿儒涵1,2、杨可佳3、吴丛1,2、李晓轩1,2*1 中国科学院科技战略咨询研究院2 中国科学院大学公共政策与管理学院3 挪威奥斯陆大学技术创新和文化研究中心近…

顺序表Sqlist.cpp

顺序表Sqlist.cpp 文章目录顺序表Sqlist.cpp1 顺序表插入逻辑2 顺序表删除逻辑3 代码演示4 运行结果1 顺序表插入逻辑 在表的第 i 个位置前插入一个元素 实现步骤: 将第 n 至第 i 位的元素向后移动一个位置;将要插入的元素写到第 i 个位置;表…

顺序表的插入删除查找遍历

顺序表的插入删除查找遍历 文章目录顺序表的插入删除查找遍历代码运行结果截图代码 #define Maxsize 100typedef int ElemType; typedef struct{ElemType data[Maxsize];int length; }Sqlist;void Createlink(Sqlist &L) {int a;printf("请输入你要创建的顺序表的长…

Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点

来源:ZDNet编译:钱磊编辑:陈彩娴继自监督学习之后,Yann LeCun 在接受 ZDNet 的最新访谈中又着重探讨了他在几年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。什么是能量模型&#…

HTML5崛起之时,Java桌面时代就已经终结了

来源:AI前线作者:Steve Hannah翻译:核子可乐编辑:燕珊2004 年 Google Maps 的面世标志着 Java 桌面时代的终结,也改变了桌面环境下“跨平台”的基本定义。本文作者以个人视角对 Java 桌面发展历程做了回顾,…