给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技...

3f9929b8ab34e6b85d110339cc5181a4.png

来源:机器学习研究组订阅

AI+science 领域近来有了诸多进展。

设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展,未来很有可能成为现实。传统意义上讲,药物创造通常依靠人工设计和构建分子结构,然后将一种新药推向市场可能需要花费超过 10 亿美元并需要十年以上的时间(Gaudelet et al., 2021)。

近来,人们对使用深度学习工具来改进计算机药物设计产生了相当大的兴趣,该领域通常被称为化学信息学(Rifaioglu et al., 2018)。然而,其中大多数实验仍然只关注分子及其低级特性,例如 logP,辛醇 / 水分配系数等。未来我们需要对分子设计进行更高级别的控制,并通过自然语言轻松实现控制。

来自伊利诺伊大学厄巴纳-香槟分校和 Google X 的研究者通过提出两项新任务来实现分子与自然语言转换的研究目标:1)为分子生成描述;2)在文本指导下从头生成分子。

2b2ca0c12df08265fac340d6d9a69b14.png

论文地址:

http://blender.cs.illinois.edu/paper/molt5.pdf

026ab22ffe3abb8cc46aa8387aab52b2.png

如下图所示,文本指导分子生成任务是创建一个与给定自然语言描述相匹配的分子,这将有助于加速多个科学领域的研究。

011fd8836fb4422c4f769de54c426700.png

在多模态模型领域,自然语言处理和计算机视觉 (V+L) 的交叉点已被广泛研究。通过自然语言实现对图像的语义级控制已取得一些进展,人们对多模态数据和模型越来越感兴趣。

该研究提出的分子 - 语言任务与 V+L 任务有一些相似之处,但也有几个特殊的难点:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的分子 - 描述对,3) 同一个分子可以具有许多功能,需要多种不同的描述方式,这导致 4) 现有评估指标(例如 BLEU)无法充分评估这些任务。

为了解决数据稀缺的问题,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其灵感来源于预训练多语言模型的最新进展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用简单的去噪目标在大量未标记的自然语言文本和分子字符串上预训练模型。之后,预训练模型在有限的黄金标准注释上进行微调。

此外,为了充分评估分子描述或生成模型,该研究提出了一个名为 Text2Mol 的新指标(Edwards et al., 2021)。Text2Mol 重新调整了检索模型的用途,以分别评估实际分子 / 描述和生成的描述 / 分子之间的相似性。

多模态文本 - 分子表示模型 MolT5 

研究人员可以从互联网上抓取大量的自然语言文本。例如,Raffel et al. (2019) 构建了一个 Common Crawl-based 数据集,该数据集包含超过 700GB、比较干净的自然英语文本。另一方面,我们也可以从 ZINC-15 等公共数据库中获取超过 10 亿个分子的数据集。受近期大规模预训练进展的启发,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其可以利用大量未标记的自然语言文本和分子字符串。

图 3 为 MolT5 架构图。该研究首先使用 T5.1.1(T5 的改进版本)的公共检查点(public checkpoints)之一初始化编码器 - 解码器 Transformer 模型。之后,他们使用「replace corrupted spans」目标对模型进行预训练。具体而言,在每个预训练 step 中,该研究都会采样一个包含自然语言序列和 SMILES 序列的 minibatch。对于每个序列来说,研究者将随机选择序列中的一些单词进行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任务是预测 dropped-out span。

fa3cb4ef3b5c18ac6ae3c7da4eb0ad72.png

分子(例如,用 SMILES 字符串表示)可以被认为是一种具有非常独特语法的语言。直观地说,该研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练一个语言模型,并且两个语料库之间没有明确的对齐方式。这种方法类似于 mBERT 和 mBART 等多语言语言模型的预训练方式。由于 mBERT 等模型表现出出色的跨语言能力,该研究还期望使用 MolT5 预训练的模型对文本 - 分子翻译任务有用。

预训练之后,可以对预训练模型进行微调,以用于分子描述(molecule captioning)或生成(如图 3 的下半部分所示)。在分子生成中,输入是一个描述,输出是目标分子的 SMILES 表示。另一方面,在分子描述中,输入是某个分子的 SMILES 字符串,输出是描述输入分子的文字。

实验结果

下表 1 为分子描述测试结果,研究发现,大的预训练模型在生成逼真语言来描述分子方面,T5 或 MolT5 比 Transformer 或 RNN 要好得多。

9946045f735f68c2d32f9fa2057c67b0.png

下图 5 显示了几个不同模型输出示例。

4bf85d1ee0121addd2311108e7d8e6b2.png

不同模型的生成结果示例(节选)。

通常 RNN 模型在分子生成方面优于 Transformer 模型,而在分子描述任务中,大型预训练模型比 RNN 和 Transformer 模型表现得更好。众所周知,扩展模型大小和预训练数据会导致性能显着提高,但该研究的结果仍然令人惊讶。

例如,一个默认的 T5 模型,它只在文本数据上进行了预训练,能够生成比 RNN 更接近真值的分子,而且通常是有效的。并且随着语言模型规模的扩展,这种趋势持续存在,因为具有 770M 参数的 T5-large 优于具有 60M 参数的专门预训练的 MolT5-small。尽管如此,MolT5 中的预训练还是略微改善了一些分子生成结果,尤其是在有效性方面的大幅提升。

下图 4 显示了模型的结果,并且按输入描述对其进行编号。实验发现,与 T5 相比,MolT5 能够更好地理解操作分子的指令。

aa2bf9f81fcf234d84f8c32d0fd969c7.png

不同模型生成的分子示例展示。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b7b7b87e3e500fa58f4986f4315bb7b4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MIT新发现:细胞在分裂前会把垃圾带走

来源:生物通 细胞可以利用这种策略清除有毒的副产品,给后代一个干净的环境。麻省理工学院(MIT)的研究人员发现,在细胞开始分裂之前,它们会进行一些清理,将似乎不再需要的分子排出体外。利用他们开发的一种测量细胞干质…

图灵测试其实已经过时了

来源:立委NLP频道图灵测试的实质就是要让人机交互在限定时间内做到真假莫辨。玩过GPT3的同学们都清楚,其实这一点已经做到了。从这个角度看,图灵测试已经过时了。区别人和机器,需要寻找其他的标准。今天就唠一唠正在风口上的预训练…

揭示世界本质的「机器科学家」,比深度神经网络还强?

来源:AI科技评论作者:Charlie Wood编译:王玥、刘冰一编辑:陈彩娴我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017 年,西北大学化学与生物工程系的…

AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来源:ACM通讯编译:王玥编辑:陈彩娴在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推…

物理学家:时间旅行有可能实现,但前提是……

来源:机器之心作者:Barak Shoshany原文链接:https://phys.org/news/2022-04-parallel-timelines.html时间旅行是科幻电影、小说中经久不衰的话题,然而直到现在,我们依然无法确定这种幻想是否可行。在这篇文章中&#x…

二叉树----数据结构:二叉树的三种遍历及习题

二叉树----数据结构:二叉树的三种遍历,利用递归算法。 关于二叉树的遍历,应用非常广泛,不单单是访问打印结点,还可以进行一系列的操作,如赋值、删除、查找、求二叉树的深度等等。 有递归和非递归两种算法,非递归用到了…

谷歌硬件主管:AR眼镜还在开发,环境计算是未来目标

来源:网易智能5月13日消息,谷歌硬件主管里克奥斯特洛 (Rick Osterloh)日前在接受采访时表示,“环境计算”是谷歌未来的目标和愿景。奥斯特洛周三在接受采访时表示:“计算应该能够无缝帮助你解决任何问题,而且就在你身边…

大脑衰老可逆转,只需注入年轻脑脊液,「返老还童」登Nature

来源:FUTURE远见 选编:闵青云 「老喽,记不住喽。」随着年龄的不断增长,不少人都会发出这样的感叹——记忆力逐渐下降。那么是否存在一种方法,可以让这种自然现象「逆天改命」呢?Nature说:有的。…

人工智能在苍蝇眼的帮助下监测无人机:新的仿生算法从噪声中提取信号

来源:国际仿生工程学会2018年12月,由于有报道称附近有无人机飞行,数千名度假旅客被困在伦敦盖特威克机场。导致这个欧洲非常繁忙的机场关闭了两天,造成重大延误,并使航空公司损失了数百万美元。商业空域中未经授权的无…

树的知识点总结-数据结构

** 一:树的基本术语 1.定义 树是一种非线性结构,只有一个根结点,除根结点外每个孩子结点可以有多个后继,没有后继的结点叫叶子结点。 2.概念 根结点:没有前驱; 孩子:有前驱的结点;…

NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA

来源:机器之心编辑:张倩、小舟在这篇论文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。当前,NLP 研究人…

赫夫曼树编码的算法及应用习题--数据结构

赫夫曼树编码的算法及应用习题 1.构造赫夫曼树的方法 1.根据给定的n个权值{w1,w2,---wn},构成n棵二叉树的集合F{T1,T2...,Tn},其中每棵二叉树中只有一个带权为Wi的根结点,其左右子树为空。 2.在F中选取两棵根结点的权值最小的树作为左右子树&#xff…

吴咏时:未来基础学科发展的“铁三角”

来源: 节选自《物理》2022年第5期《圆桌论坛:对21世纪物理学的愿景展望》。2021年9月,在清华大学举行“庆祝杨振宁先生百年华诞思想研讨会”圆桌论坛环节上,美国犹他大学教授吴咏时对今后基础物理学做了一番展望。他指出了基础物理…

树的叶子结点与完全二叉树结点计算方法

一:完全二叉树中结点问题 分析: 设叶子节点个数为n0,度为1的节点个数为n1,度为2的节点个数为n2 侧有 n0n1n2n (1) 对于二叉树有: n0n21 (2) 由(1)(2) > n0(n1-n1)/2 (3) 由完全二叉树…

图的知识点总结-数据结构

一&#xff1a;图的基本概念和术语 1.图之间的关系可以是任意的&#xff0c;任意两个数据元素之间都可能相关。 2.顶点&#xff1a;数据元素。 3.边or弧&#xff1a;从一个顶点到另一个顶点的路径。<V, W>表示弧&#xff0c;&#xff08;V,W&#xff09;表示边&#x…

当物理学遇到机器学习:基于物理知识的机器学习综述

来源&#xff1a;集智俱乐部作者&#xff1a;潘佳栋 审校&#xff1a;梁金编辑&#xff1a;邓一雪摘要物理信息机器学习&#xff08;Physics-informed machine learning&#xff0c;PIML&#xff09;&#xff0c;指的是将物理学的先验知识&#xff08;历史上自然现象和人类行为…

图的遍历——深度优先搜索+广度优先搜索

一&#xff1a;图的遍历——深度优先搜索 在本文其他内容中只是大体概括了主要的图论内容&#xff0c;更加详细的代码实现及算法分析在此给出。 深度优先搜索&#xff08;DFS&#xff09;类似树的先序遍历。 假设初始状态是图中所有顶点未曾被访问&#xff0c;则深度优先搜索…

RISC-V何以成功?

来源&#xff1a;AI前线作者&#xff1a;BRIAN BAILEY译者&#xff1a;王强策划&#xff1a;刘燕RISC-V 处理器架构的诞生毫无疑问让很多人都为之兴奋不已。然而&#xff0c;尽管许多人都说 RISC-V 预示着我们将迎来更广泛的开源硬件运动&#xff0c;但这种架构究竟为什么取得成…

最小生成树——普里姆算法和克鲁斯卡尔算法

最小生成树 用来解决工程中的代价问题。 一&#xff1a;普里姆算法 具体代码用C语言实现如下&#xff1a; typedef int VRType;typedef char InfoType;#define MAX_NAME 3 /* 顶点字符串的最大长度1 */#define MAX_INFO 20 /* 相关信息字符串的最大长度1 */typedef char Vert…

大雅之美:十位大数学家心中最美的公式

来源&#xff1a;本文译自 http://www.concinnitasproject.org/portfolio/&#xff0c;中译文曾发表于 《中国数学会通讯》2017 年第 1 期。译者&#xff1a;刘云朋&#xff0c;天津大学理学院校译&#xff1a;林开亮大雅之美&#xff1a;十位大数学家心中最美的公式牛顿法Ste…