MIT设计深度学习框架登Nature封面,预测非编码区DNA突变

db963f76e13ae89e3d5f204427db3d59.png

来源:ScienceAI

作者:Raleigh McElvery

编辑:小舟、张倩

来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的指令。

这种非编码 DNA(也称为调控 DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的合成量。随着时间的推移,细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。这些突变大多是微不足道的,但有时可能会增加一些疾病风险,包括癌症。

为了更好地了解此类突变的影响,研究人员一直在努力研究数学图谱,这些图谱使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。在生物学中,这些图谱被称为「适应度地形(fitness landscape)」,大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是繁殖成功率。

早期的适应度地形非常简单,通常只关注有限数量的突变。现在有更丰富的数据集可以使用,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解单个基因如何随着时间的推移而进化,而且还有助于预测未来可能发生的序列和表达变化。

近日,来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型,预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响,登上了最新一期《自然》杂志的封面。

11cd7e2e1e7bfb2ebea8d330448bad98.png

论文地址:https://www.nature.com/articles/s41586-022-04506-6

该研究还设计了一种以二维方式表示适应度地形的独特方式,使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变,甚至有望为基因治疗和工业应用设计自定义的基因表达模式。

该研究的主要作者之一、MIT 生物学教授 Aviv Regev 说:「科学家们现在可以使用该模型解决一些进化问题或完成一些设想,例如以所需方式制作控制基因表达的序列。」

1175dc69595ca4b66746f84e272bbc78.png

Aviv Regev

在这项研究之前,许多研究人员只是简单地在自然界存在的已知突变上训练他们的模型。然而,Regev 的团队想要更进一步。他们建立了自己的无偏模型,该模型能够基于任何可能的 DNA 序列,甚至是以前从未见过的序列,预测生物体的适应度和基因表达。研究人员将能够利用这些模型来设计细胞,研发新药,寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

为了实现这一目标,麻省理工学院研究生 Eeshit Dhaval Vaishnav、哥伦比亚大学助理教授 Carl de Boer(论文共同一作)等人创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练模型,并观察每个随机序列如何影响基因表达,该数据集是通过将数百万个完全随机的非编码 DNA 序列插入酵母菌中生成的。他们专注于非编码 DNA 序列的一个特定子集——启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。

Regev 说,「这项工作表明,当我们设计新的实验来生成正确的数据以训练模型时,将会出现什么样的可能性。从更广泛的意义上说,我相信这些方法对许多问题都很重要,比如理解人类基因组中带来疾病风险的调控区域的遗传变异,以及预测突变组合的影响,或设计新的分子。」

Regev、Vaishnav、de Boer 和他们的合著者继续以各种方式测试他们的模型的预测能力。「创建一个准确的模型当然是一项成就,但对我来说,这只是一个起点,」Vaishnav 解释道。

首先,为了确定他们的模型是否有助于合成生物学应用,如生产抗生素、酶和食物,研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。然后,他们查阅了其他的科学论文,以确定基本的演化问题,看看他们的模型能否帮助解答这些问题。该团队甚至还从一项现有研究中获取了真实世界的种群数据集,其中包含了世界各地酵母菌株的遗传信息。通过这些方法,他们能够描绘出过去数千年的选择压力,这种压力塑造了今天的酵母基因组。

但是,为了创造一个可以探测所有基因组的强大工具,研究人员需要找到一种方法,在没有这样一个全面的种群数据集的情况下预测非编码序列的进化。为了实现这一目标,Vaishnav 和他的同事们设计了一种计算方法,允许他们将来自框架的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列如何影响基因表达和适应度,而无需在实验室工作台进行任何耗时的实验。

0814a151fa3fb3ef6cea3c43cc76ee7b.png

Vaishnav 解释说:「之前,适应度地形中有一个未解决的问题,即没有一种方法可以以一种有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这一空白,并为创造一个完整的适应度环境的长期愿景做出贡献。」

爱丁堡大学医学研究委员会人类遗传学部门的遗传学教授 Martin Taylor 表示,这项研究表明,人工智能不仅可以预测调控 DNA 变化的影响,还可以揭示支配数百万年进化的潜在原则。

尽管该模型只在少数几种生长条件下的一小部分酵母调节 DNA 上进行了训练,但让他印象深刻的是,这个模型竟然能够对哺乳动物基因调控的进化做出如此有用的预测。

这项研究因其在设计生物 DNA 序列方面的重要影响而受到诸多关注,甚至在该研究正式发表之前,Vaishnav 就已经收到了一些研究人员的询问,希望将该模型设计用于基因治疗的非编码 DNA 序列。

这项工作近期已经有了一些具体的应用,包括在酿造、烘焙和生物技术中为酵母自定义设计调控 DNA。 

Martin Taylor 还评价称:「这项工作未来有望帮助识别人类调控 DNA 中的疾病突变,这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明,在更丰富、更复杂和更多样化的数据集上训练的基因调控 AI 模型有着光明的未来。」

原文链接:

https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8fd4b2d4f30284480fd0d5df8535d0e5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IO模型(epoll)--详解-03

写在前面 epoll是开发linux高性能服务器的必备技术至,epoll本质,是服务端程序员的必须掌握的知识。 七、epoll的原理和流程 本节会以示例和图表来讲解epoll的原理和流程。 创建epoll对象 如下图所示,当某个进程调用epoll_create方法时&#x…

机器学习重新构想计算的构建块

来源:ScienceAI编辑:绿萝传统算法为机器学习等复杂的计算工具提供动力。一种称为「预测算法」的新方法利用机器学习的力量来改进算法。算法——允许程序对数据进行排序、过滤和组合等的代码块——是现代计算的标准工具。就像手表里的小齿轮一样&#xff…

js实现模糊查询

1、使用indexOf 2、使用match 3、使用test 4、使用stringObject.split(),字符串分割方法&#xff0c;如果字符串可以被分割说明含有这个字符串 <html><head><title>test</title></head><body><input type"text" id"btn&…

丘成桐谈几何:从黎曼、爱因斯坦到弦论

来源 &#xff1a; 超级数学建模著名数学家丘成桐先生发表了题为“几何&#xff1a;从黎曼、爱因斯坦到弦论”的演讲&#xff0c;追溯了为广义相对论发展奠定基础的的黎曼几何&#xff0c;回顾了影响广义相对论发展的物理学突破&#xff0c;并谈及量子力学和引力理论相结合、引…

图卷积网络的五年

来源&#xff1a;ScienceAI作者&#xff1a;Mostafa Haghir Chehreghani编辑&#xff1a;萝卜皮图卷积网络&#xff08;Graph Convolutional Networks&#xff0c;GCN&#xff09;已成为使用图和网络进行学习的流行工具。我们应该反思一下成功故事背后的原因。论文链接&#xf…

【前沿技术】“中国天眼”观测到宇宙极端爆炸起源证据

来源&#xff1a;智能研究院据新华网报道&#xff0c;我国科研团队通过“中国天眼”FAST观察并计算出快速射电暴的起源证据&#xff0c;这一发现于18日刊登于国际权威学术期刊《科学》杂志。中国科学院国家天文台研究员、“中国天眼”首席科学家李菂介绍&#xff0c;快速射电暴…

红黑树存在的合理性

写在前面 主要描述为什么有了二叉查找树/平衡树还需要红黑树 1、二叉查找树的缺点 二叉查找树&#xff0c;相信大家都接触过&#xff0c;二叉查找树的特点就是左子树的节点值比父亲节点小&#xff0c;而右子树的节点值比父亲节点大&#xff0c;如图 基于二叉查找树的这种特点&a…

认清智能化战争的制胜根本

来源&#xff1a;中国军网作者&#xff1a;石海明、裴帅在战争领域&#xff0c;如果说有什么是亘古不变的真理&#xff0c;那就是“变化”。伴随着前沿智能科技的飞速发展&#xff0c;智能化时代扑面而来&#xff0c;智能化战争也初露端倪&#xff0c;冲击着人们对战争的原有认…

DeepMind的AI能指导人类的直觉吗?

来源&#xff1a;AI前线作者&#xff1a;Ben Dickson译者&#xff1a;Sambodhi策划&#xff1a;凌敏DeepMind 研究人员最近发表了一篇题为《通过用人工智能引导人类直觉来推进数学》&#xff08;Advancing mathematics by guiding human intuition with AI&#xff09;的论文&a…

NoSQL那些事--Redis

Redis是个流行的内存数据库(in-momery)。接口好用&#xff0c;性能也很强&#xff0c;还支持多种数据结构&#xff0c;加上各种高可用性集群方案&#xff0c;实在是太太太好用了。 但是就是因为太好用了&#xff0c;好用到让很多人都晕了脑子&#xff1a; 用Redis性能就大大提高…

柳昀哲课题组在Nature Reviews Neuroscience上发表长篇综述提出表征富集理论

来源&#xff1a;北师大脑与认知科学“读心解梦”一直以来是人们追求的梦想&#xff0c;从佛洛依德对于潜意识意义的追寻&#xff0c;到当今神经科学的神经信号解码&#xff0c;人们采用主观或客观的方式理解人类高级智能的脚步从未停止。早期人们理解人类意识的内涵&#xff0…

Excel生成Sql语句 格式如:=字符串1A2字符串2C2字符串3

我们有时候需要根据Excel生成sql语句&#xff0c;可以利用Excel的字符串拼接&。格式如&#xff1a;"字符串1"&A2&"字符串2"&C2&"字符串3" 例如&#xff1a;在一个Excel中&#xff0c;我们要在Data_Company表中&#xff0c;根…

诺奖10年,干细胞领域再突破!华大单细胞技术助力获得人类体外诱导全能干细胞...

来源&#xff1a;生物探索题图来源&#xff1a;The Baltimore Sun排版&#xff1a;文竞择近日&#xff0c;中国科学院和深圳华大生命科学研究院等多家机构的研究者&#xff0c;通过体细胞诱导培养出了类似受精卵发育3天状态的人类全能干细胞&#xff0c;这是目前全球在体外培养…

Django - 模板相关

一.MVC和MTV 1. MVC M: Model : 数据库, 存取数据 V: View: 视图, 信息的展示 C: Controller: 控制器, 逻辑的控制, 负责调度, 传递指令 2. MTV M: model: ORM操作 T: Template: 模板, HTML V: View: , 视图, 业务逻辑相关 二. 变量 {{变量名}} 由字母和下划线组成 (.) def te…

低代码公司黑帕云被字节跳动收购:潮水褪去,曾经爆火的低代码赛道迎来变局?...

来源&#xff1a;AI前线作者&#xff1a;凌敏曾经站在风口的低 / 无代码创业&#xff0c;如今风光不再&#xff1f;低代码公司黑帕云宣布停服&#xff0c;创始人入职飞书3 月 20 日&#xff0c;低 / 无代码创业公司黑帕云宣布&#xff0c;公司将于 2022 年 5 月 31 日停止服务&…

秒懂系列 | 史上最简单的Python Django入门教程

http://www.cnblogs.com/baiboy/p/django1.html 摘要&#xff1a;Django的学习教程也是分门别类&#xff0c;形式不一。或是较为体系的官方文档&#xff0c;或者风格自由的博客文档&#xff0c;或者偏向实例的解析文档。即使官方文档&#xff0c;章节较多&#xff0c;文字阐述累…

清华大学和MIT研究人员使用DeepMind的AlphaFold方法来增强COVID-19抗体

来源&#xff1a;ScienceAI编辑&#xff1a;绿萝利用 DeepMind 先进的蛋白质知识&#xff0c;清华大学的科学家们设计出能够抵抗 COVID-19 免疫逃逸的突变单克隆抗体。2020 年底&#xff0c;AlphaFold 2 的问世震惊了结构生物学界&#xff0c;AlphaFold 2 是谷歌人工智能部门 D…

【秒懂】号称最为简明实用的Django上手教程

https://www.cnblogs.com/baiboy/p/django1.html 阅读目录 1 几个基本概念 2 Django配置准备3 Django基础配置安装摘要&#xff1a;Django的学习教程也是分门别类&#xff0c;形式不一。或是较为体系的官方文档&#xff0c;或者风格自由的博客文档&#xff0c;或者偏向实例的解…

马斯克:今年占全球发射质量65%,星舰5月或首次轨道试飞

来源&#xff1a;澎湃新闻 作者&#xff1a;张静 马斯克透露&#xff0c;星舰有望5月开展首次轨道飞行测试&#xff0c;SpaceX计划今年的发射占全球发射质量的65%左右&#xff0c;“粗略计算是16吨*50次发射800吨。”3月22日&#xff0c;马斯克在社交媒体上表示&#xff0c;星舰…

spring boot 配置文件加密数据库用户名/密码

这篇文章为大家分享spring boot的配置文件properties文件里面使用经过加密的数据库用户名密码&#xff0c;因为在自己做过的项目中&#xff0c;有这样的需求&#xff0c;尤其是一些大公司&#xff0c;或者说上市公司&#xff0c;是不会把这些敏感信息直接透露给你&#xff0c;尤…