谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果

28d567ddbd1d119ca43c3507b09e7463.png

来源:ScienceAI

编辑 :泽南、张倩

和 AlphaFold 不同,这次谷歌探索的是用深度学习给蛋白质打上功能标签。

蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。

目前已知存在的蛋白质种类有数十亿,但其中大约有三分之一的功能是不可知的。我们迫切地需要探索这片未知区域,因为它们关系到抗菌素耐药性,甚至气候变化等重要议题。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳。

近日,谷歌与欧洲生物信息学研究所合作开发了一种技术 ProtCNN,其能够使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙中最后不可见的区域。

谷歌表示,这种新方法让我们可以较为准确地预测蛋白质功能、突变的功能效应,并进行蛋白质设计,进而应用于药物发现、酶设计,甚至是了解生命的起源。

论文:《Using deep learning to annotate the protein universe

666bb970841e7498666e68811a4b14bf.png

论文链接:https://www.nature.com/articles/s41587-021-01179-w

谷歌提出的方法可靠地预测了更多蛋白质的作用,而且它们快速、便宜且易于尝试,其研究已让主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。

205aa53cf072cf5147d988e8f0021952.png

Pfam 数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。

这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。

对于大多数人来说,我们更熟悉的是 DeepMind 此前预测蛋白质结构算法 AlphaFold 的工作。AlphaFold 向我们展示了这些神秘生物机器的形状,新研究的重点则是这些机器的作用以及它们的用途。

生物医疗是一个极其活跃的科学领域,每天都有超过十万个蛋白质序列被添加到全球序列数据库中。但是,除非附有功能注释,否则这些条目对从业者的用途非常有限。虽然人们会努力从文献中提取注释,每年评估超过六万篇论文,但这项任务的耗时性质意味着只有 0.03% 的公开可用蛋白质序列是手动注释的。

bd96a9acece47c58c03faaea152923cb.png

直接从氨基酸序列推断蛋白质功能是科学社区长久以来一直在研究的方向。从 1980 年代开始,人们就提出了 BLAST 等方法,其依赖于成对的序列比较,假设查询蛋白与已经注释的高度相似的序列具有相同的功能。后来,人们引入了基于 signature 的方法,PROSITE 数据库对在具有特定功能的蛋白质中发现的短氨基酸「基序」进行分类。基于 signature 方法的一个关键改进是开发了 profile 隐马尔可夫模型(pHMM)。这些模型将相关蛋白质序列的对齐折叠成一个模型,该模型为新序列提供似然分数,描述它们与对齐的集合的匹配程度。

在这里至关重要的是,profile HMM 允许更长的 signature 和更模糊的匹配,目前用于更新流行的数据库,如 Interpro 和 Pfam。后期的改进使这些技术更加灵敏,计算效率更高,而它们作为网络工具的高可用性让从业者可以轻松将它们整合到工作流程中去。

这些计算建模方法在学界产生了很大影响。然而,至今仍有三分之一的细菌蛋白质没有被注释出功能。究其原因,当前方法对每个比较序列或模型进行完全独立的比较,因此可能无法充分利用不同功能类共享的特征。

扩展注释的蛋白质序列集需要远程同源检测,即对与训练数据相似度低的序列进行准确分类。新研究得到的基准测试集包含 21,293 个序列。ProtENN 对所有类别分类的准确度显着提高,包括那些具有远距离测试序列的类,这是扩大蛋白质领域覆盖范围的关键要求。为解决从几个例子中推断的挑战,作者使用深度模型学习的序列表示来提高性能。

3aeebc433b4eab140f36ea82e628b87a.png

Pfam-seed 模型的性能。

7295bc9bbe7adeefa105ede22bb49f59.png

bdd169878046545397767f88e947d6b8.png

ProtCNN 的架构。中心图展示了输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络 ResNet 架构(左),而右图展示了 ProtCNN 和 ProtREP 通过简单的最近邻方法利用。在这一表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。

ProtCNN 学习每序列长度为 1100 的实值向量表示,无论其未对齐长度如何。为获得高精度,来自每个族的表示必须紧密地聚集在一起,以便不同的族很好地相互分离。为了测试这种学习表示是否可用于准确分类最小家族的序列,作者构建了一种称为 ProtREP 的新方法。对于 ProtREP,研究者计算每个家族在其训练序列中的平均学习表示,产生一个标记家族表示。然后通过在学习表示空间中找到其最近的标记来对每个保留的测试序列进行分类。对于相同的计算成本,ProtREP 在聚类分割上超过了 ProtCNN 的准确性。

00ae470df54ee6f2f74734390ddc4234.png

ProtENN 和 TPHMM 的组合提高了远程同源任务的性能。TPHMM 和 ProtENN 模型的简单组合将错误率降低了 38.6%,将 ProtENN 数据的准确度从 89.0% 提高到 93.3%。

为探究深度模型对蛋白质序列数据的了解,作者在来自 Pfam-full 的 80% 的未对齐序列上训练 ProtCNN,并计算了学习氨基酸表示的相似性矩阵。

结果表明,ProtCNN 学习了一种有意义的蛋白质序列表示方式,其可泛化到序列空间未知的部分,可用于预测和理解蛋白质序列的特性。另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置。此任务类似于图像分割,这正是深度学习模型擅长的任务。虽然 ProtCNN 是使用域进行训练的,但研究展示了 ProtCNN 使用简单的滑动窗口方法将完整序列分割成域的能力。

尽管不使用序列比对,但 ProtCNN 仍显示出了卓越的准确性。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c5078581d32999cf0a3346d02cb4c7f5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482495.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你真的了解计算生物学和AI for Science吗?

来源:量子位Q1:AlphaFold2的最大意义是什么?A1:这个看似突破性的进展,其实是技术演进的必然结果。 此外,如果我们换个视角来看待这个问题,蛋白质结构预测仅仅是计算生物学这个大门类里面一个相对…

Stephen Wolfram专访Judea Pearl:从贝叶斯网络到元胞自动机

来源: 集智俱乐部编译:闫和东、徐培 编辑:邓一雪 导语2022年人工智能与数学国际研讨会(ISAIM 2022)恰逢著名计算机科学家、贝叶斯网络之父 Judea Pearl 85岁生日,会议期间Mathematica创始人 Stephen Wolfra…

day32 并发编程之锁

并发编程之锁 1. GIL全局解释器锁 2. GIL与普通的互斥锁 3. 死锁 4. 信号量 5. event事件 6. 线程q 1. GIL全局解释器锁 """ In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple native threads from executing Python bytec…

马斯克Neuralink被曝“虐杀实验猴”,140万元美金项目遭谴责

来源: 学术头条作者:刘芳编辑:黄珊2021 年 4 月,马斯克公布了一段猴子用意念玩乒乓球游戏的视频,一时间为他旗下的脑机接口公司 Neuralink 赚足了眼球。然而最近,这些被用来做脑机接口实验的猴子的经历&…

死前真的会有「跑马灯」,人类首次同步测量大脑濒死状态

来源:新智元编辑:袁榭 好困或许,人死前可能真会眼前出现人生跑马灯!最近,神经科学家在记录了一个濒临死亡的人类大脑的活动之后发现,人在死亡前后有节奏的脑电波模式与做梦、回忆记忆和冥想时出现的模式相似…

七牛图片盲水印

注意 暂时不支持从 dora 数据处理直接调该接口,只支持从 kodo 存储调用。即 cdn 域名不可开通图片瘦身调用形式 资源 http://i.iamlj.com/19-08-12/123936.png 处理参数 watermark/6/method/encode/text/aGVsbG8gcWluaXU 新图 http://i.iamlj.com/19-08-12/123936-w…

「最小细胞」的3D数字模型,计算揭示生命最基本的要求

来源:ScienceAI编辑:萝卜皮无论是海洋深处的奇异生物还是我们体内的细菌,地球上的所有生命都是由细胞组成的。但我们对这些细胞中最简单的细胞如何运作只有一个非常粗略的了解。伊利诺伊大学厄巴纳-香槟分校的一个团队创建了有史以来最完整的…

Yann LeCun最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理

来源:AI科技评论作者:维克多、西西、王晔编辑:陈彩娴如何突破当代人工智能(AI)的瓶颈?不同学者存在不同观点。总体来看可以概括为两类,其一监督学习者,提倡通过改善数据标签质量&…

两大头号玩家 一个伟大愿景: 联邦学习的元生态建设美好世界

来源:IEEE标准协会新年伊始,世界领先的标准制定机构IEEE标准协会牵头,组织了2022年度联邦学习领域首场重量级尖峰交流活动——联邦学习首创团队带头人、谷歌研究院副总裁Blaise Agura y Arcas博士,与联邦学习亚洲奠基人、IEEE联邦…

物理学的过去、现在与未来

来源:中科院之声(ID:zkyzswx)、《物理》杂志、中国物理学会期刊网作者:冯端(我国著名物理学家、金属和晶体材料学家、教育家,中国科学院院士、第三世界科学院院士、第五届中国物理学会理事长,南…

《MIT科技评论》:2022年全球十大突破性技术

来源:6G俱乐部资料来源:《麻省理工科技评论》近日,《麻省理工科技评论》2022年“全球十大突破性技术”正式发布。此次发布的突破性技术包括:“新冠口服药”“实用型聚变反应堆”“终结密码”“AI蛋白质折叠”“PoS权益证明”“长时…

PNAS前沿:迈向作为多层学习的进化理论

来源:集智俱乐部作者:郭瑞东编辑:邓一雪导语进化、学习与物理系统的重整化有何相似之处?PNAS的论文“构建将进化视作多层学习的理论”一文,经由统一的理论框架,分析进化过程中的环境预测误差,及…

【前瞻】Nature:2022年7大“颠覆性”技术

来 源:中国科学报 作 者:文乐乐 近日,《自然》对“可能在未来一年对科学产生影响”的7项技术进行了综述。这7项技术分别是完整版基因组、蛋白质结构解析、量子模拟、精准基因组调控、靶向基因疗法、空间多组学、基于CRISPR的诊断。完整版基因…

重磅!Nature子刊发布稳定学习观点论文:建立因果推理和机器学习的共识基础...

来源:AI科技评论整理:AI科技评论2月23日,清华大学计算机系崔鹏副教授与斯坦福大学Susan Athey(美国科学院院士,因果领域国际权威)合作,在全球顶级期刊Nature Machine Intelligence(影…

卸载mysql

先停止所有mysql有关进程。 打开控制台:依次输入以下命令 sudo rm /usr/local/mysqlsudo rm -rf /usr/local/mysql*sudo rm -rf /Library/StartupItems/MySQLCOMsudo rm -rf /Library/PreferencePanes/My*vim /etc/hostconfig and removed the line MYSQLCOM-YES-rm -rf ~/Libr…

​数据集拥有自己的世界观?不,其实还是人的世界观

来源: AI科技评论编译:Antonio编辑:陈彩娴伴随深度学习的不断日常化,数据集中的偏见(bias)和公正性(fairness)已经成为一个热门研究方向。偏见在AI领域是一个很棘手的话题&#xff1…

图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

来源:机器学习研究组订阅LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、…

可重构人工智能设备展现出智能化前景

PURDUE UNIVERSITY来源:IEEE电气电子工程师一项新的研究发现,一种适应性强的新设备可以转换成人工智能硬件所需的所有关键电子元件,在机器人和自治系统中有潜在的应用。以大脑为灵感或“神经形态”的计算机硬件旨在模仿人脑从经验中自适应学习…

gin+vue的前后端分离开源项目

该项目是ginvue的前后端分离项目,使用gorm访问MySQL,其中vue前端是使用vue-element-admin框架简单实现的; go后台使用jwt,对API接口进行权限控制。此外,Web页面在token过期后的半个小时内,用户再次操作会自…

day37-数据库分组查询

1. 单表查询 2. 多表查询 ## 单表查询 前期表准备 create table emp( id int not null unique auto_increment, name varchar(20) not null, sex enum(male,female) not null default male, #大部分是男的 age int(3) unsigned not null default 28, hire_date date not null, …