《Science》基因组比对的革命性技术

b43b7809ca0120af72a2c22baad7ee4d.png

来源:生物通

加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员推出了一种名为“长颈鹿”(Giraffe)的新工具,可以有效地将新的基因组序列绘制到代表多种不同人类基因组序列的“泛基因组”(pangenome)上。

8f42ba9a07108ec29411208fd76cba2a.png

使用泛基因组学方法而不是单一的参考基因组,可以更全面地描述遗传变异,并可以改进广泛的研究人员和临床医生使用的基因组分析(Elena Zhukova)

自从20多年前人类基因组的第一次测序以来,人类基因组的研究几乎完全依赖于一个参考基因组,并与其他基因组进行比较,以确定遗传变异。科学家们早就认识到,单一的参考基因组不能代表人类的多样性,而且使用它会给这些研究带来普遍的偏见。现在,他们终于有了一个可行的选择。

在12月16日发表在《科学》(Science)杂志上的一篇论文中,加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员介绍了一种名为长颈鹿(Giraffe)的新工具,它可以有效地将新的基因组序列绘制到代表多种不同人类基因组序列的“整体基因组”。他们表明,这种方法可以对遗传变异进行更全面的表征,并可以改进广泛使用的研究人员和临床医生的基因组分析。

通讯作者Benedict Paten是加州大学圣克鲁兹分校的生物分子工程学副教授,也是基因组研究所的副主任,他说:“我们已经为此努力了多年,现在我们第一次有了比单一参考基因组更快、更好的实用方法。对生物医学的未来来说,基因组学平等地帮助每个人是很重要的,所以我们需要考虑到人类群体多样性而不带有偏见的工具。”

所有人类都有相同的基因,但在基因的确切序列上有许多变化——这意味着DNA亚基(缩写为A, C, T, G)的序列,以及在蛋白质编码基因之外的基因组的大部分区域。单个编码字母的差异被称为单核苷酸变异(SNV),短序列的插入或删除被统称为“indels”。

最复杂的变体是结构上的变体,包括重新安排大段代码(50个或更多字母)。使用单一的参考基因组很难找到这些基因,但它们可以产生显著影响,并且已知在某些疾病中发挥重要作用。每个人都有数百万个SNVs和indels,还有成千上万个更大的结构变体,这些结构变体总体上比其他类型的变体包含更多的代码字母。

Paten说:“基因组学的主力一直是SNVs和indels,因为结构变异一直隐藏在视野之外。泛基因组学让结构变异变得可见,所以我们可以像研究SNVs和短indels一样研究它们。有很多结构变异,它们可以产生很大的影响,所以这对疾病的遗传研究的未来至关重要。”

可以从多个基因组序列中创建泛基因组参考,使用数学图结构来表示不同序列之间的关系。在这篇新论文中,研究人员利用公开数据绘制了两张人类基因组参考图。这些数据被用于评估新工具Giraffe,这是一组将新的序列数据映射到泛基因组参考的算法。

第一作者Jouni Sirén是基因组学研究所的研究科学家,开创了Giraffe的许多关键算法创新。Giraffe可以准确地将新的序列数据映射到嵌入在泛体基因组参考中的数千个基因组,就像现有工具映射到单个参考基因组一样快。该研究还表明,使用Giraffe减少了绘制偏差,即不正确地绘制与参考基因组不同的序列的倾向。

“这种分析方法不仅更好,而且和目前使用线性参考基因组的方法一样快,”基因组研究所的博士后研究员、共同第一作者Jean Monlong说。

廉价的短读测序是现代基因组学的支柱,产生的序列片段必须被绘制到参考基因组上才能理解。测绘显示每个片段属于23条人类染色体中的一条,并识别出个体基因组中每个位置的变异,这个过程被称为基因分型。

研究人员发现,谷歌健康公司的深度学习变异调用者DeepVariant,使用Giraffe对泛基因组的比对比使用对单个参考基因组的比对可以更准确地识别SNVs和indels。

Monlong说他最兴奋的是使用泛基因组学来研究结构变异。

他说:“最近通过长读测序发现了许多结构变异。有了泛基因组,我们可以在短读测序的大型数据集中寻找这些结构变异。这很令人兴奋,因为这将使我们能够在许多人身上研究这些新的结构变异,并就它们的功能影响、与疾病的关联或在进化中的作用提出问题。”

研究人员使用Giraffe绘制了来自5202人的不同群体的序列解读图,并确定了16.7万最近发现的结构变异的基因型。这使他们能够估计这些结构变异的不同版本在整个人类群体中以及在单个亚群体中出现的频率。他们发现,某些变异的频率在不同的亚种群之间存在很大差异,如果只在某些特定变异频率较低的欧洲血统种群中进行分析,可能会被误解。

一个单一的参考基因组必须选择任何变异的一个版本来表示,而留下其他版本不表示。通过使更广泛的具有代表性的泛基因组参考实用,Giraffe可以使基因组学更具包容性。

Paten和加州大学圣克鲁斯基因组研究所的其他人参与了一项由美国国家人类基因组研究所资助的重大努力,以建立一个全面的人类泛体基因组参考,他们预计将于明年发布,作为科学界的资源。

参考文献

Tumour DDR1 Promotes Collagen Fibre Alignment to Instigate Immune Exclusion

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c18bee8a8df0b13181f8c244bd42e20a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念 文章目录1. MVVM模式的实现者2.第一个vue程序3.什么是mvvm?4.为什么要用mvvm?5.mvvm的组成部分7.MVVM 模式的实现者8.为什么要使用 Vue.js1. MVVM模式的实现者 Model:模型层,在这里表示JavaSc…

linux——select、poll、epoll

文章目录1.多路I/O转接服务器2.select3.select代码4.poll5.epoll5.1 基础API5.3 epoll代码5.4 边沿触发和水平触发5.4.1 水平出发LT5.4.2 边缘触发5.4.3 服务器的边缘触发和水平触发5.4 边缘触发但是能一次读完6.epoll反应堆模型6.1 反应堆模型6.2 epoll反应堆代码7.心跳包8.线…

年终盘点:2021年中国科技的重大突破

来源:科技日报2021年已经步入尾声,过去的一年是科技界屡创新高、收获满仓的一年。这一年,恰逢中国共产党百年华诞,我国科技界更是取得多项重要突破。量子计算获得重大进展,使我国成为唯一在两个物理体系中实现量子计算…

vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值?

vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值? 文章目录vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值?什么是组件?为什么要使用组件?如何使用组件呢&…

iscsi-分区类型

iSCSI简介(Internet SCSI): iSCSI 小型计算机系统接口,IBM公司研发,用于在IP网络上运行SCSI协议;解决了 SCSI需要直连存储设备的局限性;可以不停机扩展存储容量,iSCSI 将 SCSI 接口与 Ethernet 技术结合&am…

设计模式1——设计模式的原则

1.从面向对象说起 ~~~~~~变化是代码复用的天敌,面向对象的设计语言的优势就是抵御变化!这里的所谓抵御变化,不是说采用面向对象的设计语言,就没有变化,而是将变化的范围降到最小。 ~~~~~~之前我们所认识的面向对象的语…

盘点:2021年度物理学十大突破|《物理世界》

来源:物理世界作者:哈米什约翰斯顿(Hamish Johnston)译者:王晓涛、乔琦2021年12月14日,《物理世界》(Physics World)编辑从其网站发表的近600项研究进展中评选出了年度物理学领域十大…

操作系统学习笔记-01-1.1课程概述

此课程来自于b站操作系统_清华大学(向勇、陈渝),博客作为博主手打,当作参考笔记,回头复习223 1.1课程概述 课程简介 什么是操作系统 为什么学习以及如何学习操作系统 操作系统的实例,历史和结构介绍 基本概念及原理 操作系统…

Python实现二叉树的遍历

二叉树是有限个元素的集合,该集合或者为空、或者有一个称为根节点(root)的元素及两个互不相交的、分别被称为左子树和右子树的二叉树组成。 二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分&#…

tdms打开闪退问题

问题:tdms打开闪退 解决方法如下,打开excel,在菜单栏中点【文件】 左下方进入【选项】,然后在excel选项中点击【加载项】 然后在下方的管理,选择【COM加载项】,点击【转到】 将NI的TDMS【Add-in】的打勾&a…

操作系统学习笔记-02-1.2-什么是操作系统

1.2什么是操作系统 没有一个完整,精确,公认的定义从功能和特点上来介绍操作系统 用户角度上,操作系统是一个控制软件管理应用程序为应用程序提供服务杀死应用程序 资源管理管理外设,分配资源 操作系统架构层次 硬件之上应用程序之…

大脑活动与认知: 热力学与信息论的联系

来源:集智俱乐部作者:Guillem Collell、Jordi Fauquet译者:张澳审校:刘培源编辑:邓一雪导语信息和能量之间的关系已经在物理学、化学和生物学中得到了广泛的研究。然而,这种联系并没有在神经科学领域形式化。2015年&am…

我为能准时下班而做的准备,以及由此的收获,同时总结下不足

可能有人会说,做IT的想准时下班很难,尤其是在互联网公司。有些外企或国企倒能准时下班,原因是公司更像养老院。 其实这里存在个误区:能否准时下班其实和工作效率和质量有关,取决于自己,而不在于其它因素。公…

Ubuntu下进行截图的快捷方式

shiftFnPRT SC 截图结果保存在用户下的相册中

离散数学学习笔记-01-随机试验与随机事件

文章目录1.1.1随机试验与随机事件引言随机事件1.1.2.样本空间与事件的集合表示基本概念1.1.3事件之间的关系1.包含2.并(和)引入概率论的三个要素:1.1.1随机试验与随机事件 引言 确定性(必然):一定发生&am…

18-ESP8266 SDK开发基础入门篇--TCP 服务器 RTOS版,串口透传,TCP客户端控制LED

https://www.cnblogs.com/yangfengwu/p/11112015.html 先规定一下协议 aa 55 02 01 F1 4C 控制LED点亮 F1 4C为CRC高位和低位aa 55 02 00 30 8C 控制LED熄灭 30 8C为CRC高位和低位 aa 55 03 占空比(四字节 高位在前,低位在后) CRC校验高位,CRC校验低位 预留一个问题 我用客…

Ubuntu下的git使用指南

1.创建账号,绑定邮箱 在Git或者Gitee中创建一个Git账号或者Gitee账号,绑定邮箱,Ubuntu下的git命令对Git或者Gitee都有效。 2.安装git Ubuntu下下载git命令: sudo apt-get install git在下载完之后,可以通过git --v…

人类、动物和人工智能意识的新理论

来源:ScienceAI编译:萝卜皮德国波鸿鲁尔大学(RUB)的两名研究人员提出了一种新的意识理论。他们一直在探索意识的本质,大脑如何产生意识以及在何处产生意识,以及动物、人工智能是否也有意识等问题。新概念将…

算法日记-01-算法和数据结构概览

算法日记-01-算法和数据结构概览 文章目录算法日记-01-算法和数据结构概览1.数据结构2.算法3.如何解题?4.刷题方法5.小结1.数据结构 一维 基础:数组arry(string),链表 linked list高级:栈 stack&#xff0…

ffmpeg——简单播放器代码

1.媒体文件播放总体过程 媒体文件——>解复用——>解码——>调用播放接口——>播放 2.解复用 2.1 什么是解复用? 解复用:将媒体文件分解为视频流和音频流 avformat_open_input() /*打开对应的文件,查找对应的解复用器&…