ICLR 2024 | MolGen: 化学反馈引导的预训练分子生成

MolGen: 化学反馈引导的预训练分子生成

英文题目:Domain-Agnostic Molecular Generation with Chemical Feedback

发表会议:ICLR 2024

论文链接:https://arxiv.org/abs/2301.11259

代码链接:https://github.com/zjunlp/MolGen

目录

引言

MolGen的训练框架

实验分析

总结


引言

药物发现的核心环节之一是合成和设计具有理想化学特性的分子。随着语言模型展现出在解析复杂分子分布方面的潜力,研究人员开始尝试将分子的SMILES描述符与预训练语言模型相结合。然而,SMILES描述符的语法特质并不总能保障所生成化学结构的有效性,经常导致生成化学上无意义的字符串。除此之外,虽然分子语言模型在预训练过程中学习了大量的分子结构信息,它们仍难以准确捕捉到现实世界中化学与生物特性的复杂关系。这使得它们常常陷入“分子幻觉”,生成在结构上看似正确,但缺乏理想化学属性的分子。 为了应对上述挑战,本文提出了新的分子生成框架MolGen。MolGen通过双阶段预训练深入学习分子的结构与语法特征,并采用化学反馈机制优化分子生成过程,使其产生的分子既化学有效又具备预期属性。

图1

MolGen的训练框架

MolGen的预训练包含两个关键阶段:

  • 首先,基于Seq2seq的模型架构,MolGen在超过一亿的分子序列上执行掩码操作,通过重构原始序列深度挖掘分子的结构本质,同时采用SELFIES作为分子描述符,确保生成的分子序列的100%有效性。

  • 其次,引入一种通用的分子前缀策略,提升模型跨不同领域的适用性和灵活性。

在预训练阶段之后,尽管模型已经掌握了分子的基本语法规则,但它还需要学习如何根据实际化学需求优化分子结构。因此,MolGen引入了一种化学反馈机制,引导模型优先考虑那些更优候选分子,进而学习评估并纠正自己的生成过程,以实现与优化目标的一致性。这种方法确保了MolGen不仅能生成化学上有效的分子,而且这些分子具备所需的预期特性,适应实际的应用场景。

图2

实验分析

本文通过一系列实验分析验证了MolGen模型的有效性和实用性。 实验结果表明,MolGen能够生成反映现实世界分子分布的多样化且真实的分子,适用于构建虚拟分子库。

表1

通过优化实验,MolGen证明了其能够有效地生成与特定目标蛋白质高度亲和的分子。结合亲和力量化了分子与目标蛋白质之间的相互作用力。如图(a)所示,MolGen专门针对初始结合亲和力较低的1000个分子进行优化,成功提升了这些分子的亲和力。其中亲和力通过解离常数(K_D)来体现,K_D值越低表示亲和力越强。图(b)则进一步展示了在两种不同目标蛋白质上,通过MolGen优化后分子结合亲和力的显著提高,从而突显了MolGen在药物设计和分子优化领域的应用潜力。

图3

此外,MolGen也能够优化相对简单的化学性质,如p-logP和QED值。在天然产物与合成分子两种设定下,不同配置的模型生成的分子化学性质发生了明显的变化。在未应用化学反馈机制的情况下,预训练模型倾向于生成与输入分子化学性质相似的分子。然而,当引入化学反馈后,化学性质得分显著提升,这表明通过化学反馈机制,模型能够将其生成过程与化学上的实际偏好相对齐,从而有效地评估并调整其生成的分子,确保这些分子具备应用中所需的化学特性。

图4

本文将MolGen得到的分子表示空间与基于深度图生成的模型、基于变分自编码器的模型以及基于SMILES的语言模型进行比较。总体而言,预训练语言模型,尤其是MolGen,在维持生成分子多样性的同时,成功捕获了训练集中分子的化学特性和结构特征,展现了其在精确模拟分子化学空间方面的优势。

图5

进一步地,本文还探讨了使用不同分子语言(SMILES和SELFIES)进行预训练的模型在感知分子结构方面的能力。下图可视化了模型最后一个自注意力层的注意力权重。基于SMILES的预训练模型可能会将注意力分配给缺乏内在化学意义的符号或数字,相比之下,MolGen在识别和理解具有化学意义的子结构方面表现出更高的有效性。

图6

总结

本文介绍了一种新的分子生成框架MolGen。实验分析表明,MolGen能够有效生成符合化学偏好的分子,规避了“分子幻觉”问题。未来的研究方向包括将MolGen应用于逆合成、化学反应预测等生成任务,探索多模态预训练技术,或融合更广泛的知识资源。此外,为了进一步满足从头分子设计的需求,作者推出了最新的MolGen-7B版本。该版本基于LLaMA架构,无需依赖现有分子结构即可设计出多样化的新分子,开拓了更为广阔的化学探索空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/665656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可解释性AI(XAI):构建透明和值得信赖的决策过程

可解释性AI(XAI)旨在提高人工智能系统的透明度和可理解性,使人们更好地理解AI的决策过程和原理。随着AI技术的广泛应用,XAI成为了一个备受关注的重要领域。它不仅有助于建立人们对AI的信任,还可以帮助解决AI伦理和偏见…

Python flask 表单详解

文章目录 1 概述1.1 request 对象 2 示例2.1 目录结构2.2 student.html2.3 result.html2.4 app.py 1 概述 1.1 request 对象 作用:来自客户端网页的数据作为全局请求对象发送到服务器request 对象的重要属性如下: 属性解释form字典对象,包…

Android状态栏/通知栏图标白底问题

问题及现象 从android L版本开始,为了统一图标样式,会将通知栏、状态栏等显示图标处统一为白底或黑底,以促使开发人员规范图标设计。 从现象看,状态栏会显示一个白底的方框;下拉通知栏展开时的图标为白底方框加圆框…

IEC104 S帧超时判定客户与服务端不匹配造成的异常链接问题分析

2、通过ss命令发现确有链接端口变化,与设备约一天一次的重连,通过抓包(tcpdump -vvv -nn port 1001 -w 0926.cap)分析得以下现象 2.1、异常情况时未对设备的I帧均匀的回S帧进行确认,正常情况时均匀的回S帧进行确认 2.…

酷开科技依托酷开系统新剧热播,引领潮流风向

随着科技的不断发展,智能电视已经成为了家庭娱乐的主流,是消费者居家休闲放松的好帮手。其中,作为国内智能电视操作系统领军者的酷开系统,一直致力于为消费者提供丰富的内容和贴心的体验。近日,酷开系统新剧热播&#…

仰暮计划|“每次他们吃饭,出来散步,都是背着枪,枪都是装满子弹上好膛,时刻准备着作战和反击”

20世纪70年代中叶,越南结束抗美战争、实现国家统一后,把中国视为“头号敌人”,中越关系急剧恶化,中国边疆的和平、安定和人民的生命财产受到严重威胁。在此情况下,1979年2月17日,遵照中央军委命令&#xff…

车载测试Vector工具CANoe——常见问题汇总(中)

车载测试Vector工具CANoe——常见问题汇总(中) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一…

【兼容认证】白鲸开源与银河麒麟高级服务器操作系统成功通过测试

2024年1月2日,北京白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,白鲸开源旗下产品 WhaleStudio V2.4 已成功通过与麒麟软件有限公司旗下的银河麒麟高级服务器操作系统产品的兼容性测试。 麒麟软件有限公司的银河麒…

elk之简介

写在前面 本文看下es的简介。 1:简介 背后公司,elastic,08年纽交所上市,与腾讯,阿里等云厂商有合作,推出云产品,类似功能的产品由solr,splunk,但使用量es当前遥遥领先…

【初中生讲机器学习】4. 支持向量机算法怎么用?一个实例带你看懂!

创建时间:2024-02-02 最后编辑时间:2024-02-03 作者:Geeker_LStar 你好呀~这里是 Geeker_LStar 的人工智能学习专栏,很高兴遇见你~ 我是 Geeker_LStar,一名初三学生,热爱计算机和数学,我们一起加…

火贱兔奔月

欢迎来到程序小院 火贱兔奔月 玩法&#xff1a;点击左右箭头&#xff0c;控制火贱兔躲开障碍物&#xff0c;奔向月球和嫦娥姐姐约会&#xff0c;贱兔就是矫情&#xff0c;快去本月吧^^。开始游戏https://www.ormcc.com/play/gameStart/267 html <canvas id"gameCanva…

深度学习技巧应用35-L1正则化和L2正则在神经网络模型训练中的应用

大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用35-L1 正则化和L2正则在神经网络模型训练中的应用。L1正则化和L2正则化是机器学习中常用的两种正则化方法,用于防止模型过拟合并提高模型的泛化能力。这两种正则化方法通过在损失函数中添加惩罚项来控制模型的复杂性。…

ChatGPT 4.0 升级指南, ChatGPT Plus(GPT 4.0) 有何优势?

1.ChatGPT 是什么&#xff1f; ChatGPT 是由 OpenAI 开发的一种基于人工智能的聊天机器人&#xff0c;它基于强大的语言处理模型 GPT&#xff08;Generative Pre-trained Transformer&#xff09;构建。它能够理解人类语言&#xff0c;可以为我们解决实际的问题。 ChatGPT 4.…

获取github某项目软件的最新版本方法(通过命令行)

场景&#xff1a; 如果我们项目中需要实现某个Github公共软件的最新版本更新 那么获取软件的最新的发布版本就是一个比较重要的工作了 对此&#xff0c;Github提供对外api不需要自己手动填写脚本了 解决方案&#xff1a; 替换黄色字体的项目地址&#xff0c;然后在cmd中执行…

chisel之scala 语法

Chisel新手教程之Scala语言&#xff08;1&#xff09; Value & variable Value是immutable的&#xff0c;当它被分配一个数据后&#xff0c;无法进行重新分配。用 val 表示。 Variable是mutable的&#xff0c;可以重复赋值。用 var 表示。示例如下&#xff1a; val a …

牛客寒假训练营H题

思路&#xff1a;找出所有m的子集&#xff0c;加到价值中&#xff0c;找出最大价值即可。 代码&#xff1a; void solve(){int n, m;cin >> n >> m;vector<pii>a(n 1);for(int i 1;i < n;i )cin >> a[i].first >> a[i].second;int ans 0…

获取响应请求头里的信息

如图所示这是一个导出excel的接口&#xff0c;后端响应头部&#xff0c;要获取Content-Disposition里的值&#xff0c; 由于命名问题&#xff0c;没有办法用res.Content-Disposition的方式获取它的值 按理来说使用res[Content-Disposition]就可以获取到&#xff0c;但是咩有&…

简单几步,借助Aapose.Cells将 Excel 工作表拆分为文件

近年来&#xff0c;Excel 文件已成为无数企业数据管理的支柱。然而&#xff0c;管理大型 Excel 文件可能是一项艰巨的任务&#xff0c;尤其是在高效共享和处理数据时。为了应对这一挑战&#xff0c;大型 Excel 工作簿被拆分为较小的工作簿以增强电子表格管理。Aspose提供了这样…

【LeetCode: 462. 最小操作次数使数组元素相等 II + 贪心】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

redis复习笔记05(小滴课堂)

案例实战之注册登录-图形验证码谷歌开源Kaptcha引入 验证码配置工具类。 验证码存储Redis逻辑编码实战 工具类用于获取本机ip和md5加密&#xff0c;直接使用就行&#xff0c;我们这里主要是学习redis不是学习这个。 获取验证码并存到redis中的接口&#xff1a; 运行测试&…