AI从业者怎么做Science?清华大学AIR周浩:从文本生成到蛋白质设计的跨界探索

近日,北京智源大会「AI for Science」分论坛上,清华大学智能产业研究院副研究员周浩以「面向科学发现的生成式人工智能」为主题展开演讲, HyperAI超神经在不违原意的前提下,对周浩教授的深度分享进行了整理汇总。

周浩教授演讲现场

从文本生成到分子设计的跨界探索

本次演讲,周浩教授主要从面向复杂符号的生成式人工智能、微观样本生成所面临的挑战、目前的具体研究内容 3 个方面进行阐述。

在介绍其相关研究方向时,周浩教授表示,过去 10 年他一直致力于包括文本生成和机器翻译等自然语言的处理。近两年来,其研究重点逐渐从内容创作转向分子生成和蛋白质设计。 在他看来,如果将过去的文本处理工作视为一个复杂的语言符号系统,其中词汇表由 26 个字母构成,那现在的工作就相当于将这 26 个字母扩展到元素周期表、氨基酸、碱基等更广泛的领域。对于这些技术,他的研究团队已经积累了丰富的经验。

从专注于内容创作的人工智能到致力于科学发现的人工智能, 这两者之间存在何种联系?事实上,人工智能可以通过噪声生成完整的图像,许多北美的研究团队也早已利用相似的方法来进行蛋白质设计。通过在空间中随机排列蛋白质的氨基酸,再经过一系列从 0 到 2,000 步的生成设计,就可以设计出外观上相当合理的氨基酸序列。

尽管目前该研究涉及的蛋白质长度还存在一定限制,但近期的研究成果已经显著扩展了这些限制,也暗含了该项技术的巨大潜力,这或许是周浩教授选择该领域的重要原因。

AI 从业者进行 Science 研究时遇到的多重挑战

随后,周浩教授向大家分享了从计算机科学或 AI 领域从业者的角度出发,探索科学领域的人工智能 (AI for Science) 主要面临的 3 大挑战。

第一,分子数据的特异性。 一般而言,文本和符号在处理时是离散的,图像则是 0 到 1 之间的连续信号,但分子数据既包含离散元素,又包含连续元素。

例如,在计算机中存储分子时,研究人员通常将其表示为原子坐标、原子类型,其中原子坐标是连续的,而原子类型是离散的,这形成了一种多模态数据,处理时难度较大。此外,分子还具有几何约束,如旋转、平移的不变性,这在文本或图像处理中并不常见。

第二,文本和图像的模型在蛋白质领域并不能完全复用。 分子数据不仅具有多模态特性,还对噪声极其敏感。例如,在一张狗的图片上加入噪声,人们仍然能够识别出这是一张狗的图片。但是,如果在分子数据上加入即使很微小的噪声,也可能导致人们无法识别分子的身份,造成大量信息丢失。因此,传统的处理方法并不完全适用于这种新的数据类型。

第三,分子数据顺序缺失。 文本对自左至右的依赖非常少,所以它可以通过 GPT 自左至右生成新的文本。但蛋白质的双向依赖性非常强,其前后左右顺序又不易确定,如果直接使用文本或图像模型来生成分子结构,将面临极大的困难。

为了应对上述挑战,周浩教授团队在数据结构、生成算法以及基座构建等方面进行了深入研究。

从数据结构出发,找到本征的数据刻画空间

仅保留二面角自由度,重构分子 3D 结构表示

**「如何确定分子或目标数据结构的本征空间,是计算机人必须要解决的问题。」**周浩教授表示,分子的三维结构表示非常重要,可谓是结构即功能。过去,研究人员主要通过记录原子的坐标、类型构建分子模型,进而获取所需信息。然而,分子的结构很大,又包含大量的冗余信息,如果用过去的方式来建模,从计算机科学的角度来看,这并不是在分子的本征空间中进行观察。

实际上,通过分析分子的键长、键角和二面角就会发现,分子键长、键角的峰值较少,自由度有限,而二面角则有较多的自由度。因此,周浩教授团队设计了一种新方法,即保留二面角自由度的同时,移除其他冗余自由度。

具体来说,该研究可将三维结构转化为二维表示,并通过分子碎片化处理,使得每个分子内部的自由度最小化,而 fragment 之间的自由度最大化,利用动态规划技术,轻松解决 min-max 问题,之后再用算法将所有分子切割成目标数据结构。

论文题目: Regularized Molecular Conformation Fields

论文链接: https://neurips.cc/virtual/2022/poster/53277

「有了这种新的数据结构,如果未来需要进行分子生成,相关研究将会以极少的数据量来构建分子空间,这种思想极其重要!」

从实空间到谱空间,高效捕捉蛋白质几何、化学信息

除了分子的研究之外,周浩教授团队对蛋白质结构和功能的研究也很感兴趣。

在研究蛋白质时,研究人员通常会从几何信息、化学信息这两个维度来观察。众所周知,蛋白质的形状 (shape) 和表面化学信息对其功能至关重要,只有两者互补,才能表现最佳。

为了高效地表示蛋白质的化学和几何信息, 周浩教授团队将蛋白质从实空间 Transform 到谱空间,再用本征函数来表示蛋白质。例如,使用 10 个本征函数捕捉蛋白质的低频信息,从而解析出它的大致轮廓。另外,越多的本征函数就能捕捉越多的高频信息,通过使用 1,000 个本征函数,就会捕捉到几乎所有的蛋白质信息。

论文题目: Learning Harmonic Molecular Representations on Riemannian Manifold

论文链接: https://iclr.cc/virtual/2023/poster/10900

**「以上方法的优势在于,它不仅能够复制蛋白质的几何信息,还能复制其化学信息。」**每个本征函数可被视为一个新的空间,蛋白质表面的化学信息可映射到这个本征空间中,在同一个空间既表达几何信息、又表达化学信息,复杂的实空间问题就转换成了简单的谱空间问题。

从生成算法出发,设计适配分子的生成模型

尽管找到了最紧凑、本征的分子和蛋白质空间,但在成功识别这些空间之后,所面临的下一个问题就是:如何利用生成式人工智能有效得到目标分子。

论文题目: MARS: Markov Molecular Sampling for Multi-objective Drug Discovery

论文链接: https://iclr.cc/virtual/2021/poster/3352

为了找到最适配的分子生成模型, 周浩教授团队开发了一种名为 MARS 的模型,该模型采用无监督的多目标分子优化采样来做 2D 的分子设计,其分子设计过程中需要满足多个设计目标,这是一个在复杂高维空间中进行采样的问题。采用马尔可夫链蒙特卡洛 (MCMC) 框架来编辑分子,如果满足细致平衡条件,就能生成任意的目标分子。

论文题目: Equivariant Flow Matching with Hybrid Probability Transport
论文链接: https://neurips.cc/virtual/2023/poster/70795

同时,周浩教授团队提出的 EquiFM 是目前在探索分子数据几何归纳偏置方面表现最好的生成模型,它在多个分子生成基准测试中都能获得很好的性能,平均采样速度提高了 4.75 倍。

论文题目: Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks
论文链接: https://iclr.cc/virtual/2024/oral/19764

此外,GeoBFN 分子生成模型的核心是将数据空间中的所有分子数据转换到高斯均值方差空间,从而生成具有高合法性和接近真实分布的分子。对此,周浩教授表示:「这是目前最适合分子的深度生成模型,存在极大的发展潜力。」

论文题目: MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space
论文链接: https://icml.cc/virtual/2024/poster/34336

除了这些工作,周浩教授团队还曾在国际机器学习会议 (ICML) 上发表了一篇论文,探讨将 GeoBFN 应用于结构药物设计的可能性。研究结果表明,使用该模型生成的分子具有非常稳定的构象和良好活性。

从基座构建出发,建立富含广袤数据知识预训练基座

最后,周浩教授向大家分享了如何从基座构建出发,建立富含广袤数据知识预训练基座。

在现有研究中,小分子生成的实验数据十分匮乏,尝试用计算机科学的方法来解决这个问题是一种很重要的思路。

论文题目: Zero-Shot 3D Drug Design by Sketching and Generating
论文链接: https://neurips.cc/virtual/2022/poster/54457

对此,周浩教授团队提出了一个新的想法,即将分子生成从靶点到分子的单步生成分解,变成从靶点到 shape,再从 shape 到分子的过程。 事实上,虽然从靶点直接到分子的数据量很少,但从 shape 到分子的数据量却非常多,这些数据足够从靶点采集各种各样的 shape,再做从 shape 到分子的超大规模预训练模型。最后很快实现从靶点到分子,甚至实现无监督或者少监督的药物分子设计。

论文题目: Multimodal Molecular Pretraining via Modality Blending
论文链接: https://iclr.cc/virtual/2024/poster/17824

此外,他们提出的 MolBlend 模型,实现了二维和三维分子的联合预训练,这是典型从图文预训练到分子预训练的拓展案例。

论文题目: Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective

论文链接: https://icml.cc/virtual/2024/poster/33340

另外,他们还提出了一种基于几何完形填空的分子自编码器 Mol-AE, 和 3D Cloze Test 的新训练目标,所提模型能够更好地学习真实分子结构中的原子空间关系,与目前最先进的三维分子建模方法相比,Mol-AE 实现了较大的性能提升。

蛋白质的通用预训练研究也是他们选择的一个方向。据了解,目前蛋白质的通用预训练主要分为三大类:DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列,周浩教授团队目前开发了其中的 ESM-AA 模型。

论文题目: Multi-Scale Protein Language Model for Unified Molecular Modeling
论文链接: https://icml.cc/virtual/2024/poster/35119

这是因为,从 Alphafold2 到 Alphafold3 的升级已经构建了全原子的基座,RoseTTAFold 系列同样如此,只有 ESM 系列还没有做全原子的基座。自去年 9 月份以来,周浩教授团队一直在进行这项工作,结合原子和氨基酸词汇表,可多尺度的实现蛋白质训练,在蛋白质和小分子联合任务中,ESM-AA 的表现优于单独预训练基座,如 ESM、其他蛋白质预训练或小分子预训练基座。

这项预训练基座在 Twitter 上也获得了广泛好评。作为序列基座的代表,ESM-AA 后续将与结构基座的代表 RoseTTAFold 和 Alphafold3 竞争,「我想,这也是我们未来的目标。」周浩教授表示。

关于周浩教授

周浩,1990 年生,博士,清华大学副研究员。研究方向是面向复杂符号系统的生成式人工智能,主要的应用包括超大规模语言模型,分子生成,蛋白质设计,新材料发现等。

曾任字节跳动研究科学家和副总监,领导搭建了字节跳动的文本生成中台和 AI 辅助药物设计两个方向的研发团队,研发产品应用于全球 20 余个国家,用户规模超过 10 亿。他长期担任 ICML、NeurIPS,ICLR,ACL 等人工智能顶级会议的领域主席,在人工智能重要国际会议上发表论文 80 余篇。获 2019 年度中国人工智能学会优秀博士论文奖、自然语言处理领域顶级国际会议 ACL 2021 最佳论文奖 (1/3350) 、2021 年度中国计算机学会 NLPCC 青年新锐学者奖等荣誉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/36173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

远程过程调用(RPC)

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

数字AI化银行数字化转型实战手册银行数字化转型大客户营销销售讲师培训师唐兴通谈存量客户理财金融科技与场景化

推动银行数字化转型的五个关键因素 推动银行数字化转型的五个关键因素: 客户体验。为客户提供便利和个性化是数字化转型的关键因素。银行应开发和实施创新的数字渠道,例如移动应用程序、网上银行、聊天机器人等,以方便获取金融服务并提高客户…

基于yolo的物体识别坐标转换

一、模型简介: 1.1、小孔成像模型简图如下:不考虑实际相机中存在的场曲、畸变等问题 相对关系为: 为了表述与研究的方便,我们将像面至于小孔之前,且到小孔的距离仍然是焦距f,这样的模型与原来的小孔模型是等价的 相对关系为: 二、坐标系简介: **世界坐标系(world coo…

Kithara设置专用CPU

设置专用 CPU 目录 设置专用 CPU 点击WINDOWS R,运行对话框打开,输入“msconfig”并确认确定。 现在会弹出一个对话框,您可以在其中更改 Windows 的某些设置。打开名为“引导”的第二个选项卡。 选择要配置为使用专用模块的操作系统。通常…

移远通信发布两款Wi-Fi 6模组新品:率先采用亚马逊ACK SDK for Matter方案实现互联互通

6月26日 ,在MWC上海展上,全球领先的物联网整体解决方案供应商移远通信联合亚马逊及上海博通现场宣布,推出支持亚马逊Alexa Connect Kit (ACK)SDK for Matter方案的MCU Wi-Fi 6模组FLM163D和FLM263D。 后续,…

vite vue3使用axios解决跨域问题

引入依赖 npm install axios 在main.js中全局引入 import { createApp } from vue import App from ./App.vue import axios from axiosconst app createApp(App)// 全局引入axios app.config.globalProperties.$axios axiosapp.mount(#app) 修改vite.config.js的代理配置…

Embedding是什么?为什么重要?

本文为 Simon Willison 在 PyBay 上发表的演讲视频的文字改进版 原文链接: https://simonwillison.net/2023/Oct/23/embeddings/ 演讲视频链接: https://youtu.be/ArnMdc-ICCM Embedding 是一个非常巧妙的技术,但常常和一堆令人生畏的术…

vscode中快捷生成自定义vue3模板

需求描述 新建 vue 文件后,需要先写出 vue3 的基础架构代码,手动输入效率低下! 期待:输入 v3 按 Tab 即刻生成自定义的vue3模板(如下图) 实现流程 vscode 的设置中,选择 用户代码片段 输入 vue…

GPU技术全景:推动未来计算的新动力-4

7.中国厂家 在中国市场,也有几家本土企业在GPU领域崭露头角,虽然市场份额相对较小,但在国产替代和自主可控的浪潮下发展迅速,包括但不限于: •沐曦集成电路、壁仞科技、燧原科技、登临科技、摩尔线程等&#xff0c…

列顺序占用存储大小的影响 in Oracle、MySQL、PostGreSQL

列顺序占用存储大小的影响 in Oracle、MySQL、PostGreSQL 在创建表时,如果相同的列类型,不同表列的顺序是否会影响数据库占用空间大小?使用oracle、mysql或postgresql是不是相同的表现呢? 不是的Postgresql近期发现空间使用会因为…

Fizz Buzz 经典问题 - 蓝桥杯

基础知识要求: Java:方法、if else语句、算术运算符、逻辑运算符、Scanner类 Python: 方法、if else语句、算术运算符、逻辑运算符、input() 题目: 思路解析: 读取输入: 从标准输入或其他方式读取一个整数…

DC/AC电源模块:效率与可靠性兼备的能源转换解决方案

BOSHIDA DC/AC电源模块:效率与可靠性兼备的能源转换解决方案 随着科技的迅速发展和人工智能技术的逐渐成熟,各种电子设备的需求也日益增加。然而,这些设备往往需要不同的电压和电流来正常工作,而供电方式却可能不尽相同。这时&am…

单元测试,一直转圈,既不报错也不运行结束(ssm junit4 test )

修改dataSource.properties文件 然后把mysql.version的版本修改为8.x.x 如果没有效果,再看看连接数据库的用户名和密码是否正确,一般是连接数据库出了错,单元测试才回一直转圈,我是检查了一上午才发现,用户名错了。 检…

一天跌20%,多只可转债“腰斩”,近百只跌破面值,“退可守”的香饽饽为何破防?

专业人士指出,近期部分可转债大跌原因主要有两点:一方面,转债市场与权益市场联动性强。另一方面,近期公布的宏观经济数据稳中趋缓,“供强需弱”特征依然明显,证监会主席吴清发言及“科创板八条”新规延续了…

在举办数字化营销活动前该如何做客户画像和制定营销方案

在当今数字化时代,举办成功的营销活动离不开对客户的精准了解。而根据产品属性来描绘客户画像,并据此制定营销方案,是提高营销效果的关键。 一、产品属性分析 首先,咱们得好好琢磨一下产品本身。比如说,如果是一款…

基于幅值判断的工频故障分量距离保护

统的继电保护原理是基于工频电气量的,但近年来,反应故障分量的高速继电保护原理在微机保护装置中被广泛应用。故障分量只在设备发生故障时才出现,因此可以用叠加原理来分析其特征。 将电力系统发生的故障视为非故障状态与故障附加状态的叠加…

数据产品赋能数字化转型

数据产品赋能数字化转型 引言:数据产品的创新与发展:赋能决策智能化的钥匙一、数据产品的定义与特征二、数据产品的核心功能三、应用实践与案例分析四、未来展望引言:数据产品的创新与发展:赋能决策智能化的钥匙 在数字化转型的浪潮下,数据已成为企业核心竞争力的关键要素…

Http客户端-Feign 学习笔记

作者介绍:计算机专业研究生,现企业打工人,从事Java全栈开发 主要内容:技术学习笔记、Java实战项目、项目问题解决记录、AI、简历模板、简历指导、技术交流、论文交流(SCI论文两篇) 上点关注下点赞 生活越过…

6.26.1 残差卷积变压器编码器的混合工作流程用于数字x线乳房x光片乳腺癌分类

基于残差卷积网络和多层感知器变压器编码器(MLP)的优势,提出了一种新型的混合深度学习乳腺病变计算机辅助诊断(CAD)系统。利用骨干残差深度学习网络创建深度特征,利用Transformer根据自注意力机制对乳腺癌进行分类。所提出的CAD系统具有识别两种情况乳腺…

索引:通往高效查询的桥梁(五)

引言 上一章,我们探索了SQL的基础知识,从DDL、DML到DQL,掌握了构建和操作数据库的基本技能。现在,我们将目光转向数据库性能的核心——索引。索引,犹如图书馆中的目录系统,极大地加速了数据检索过程&#…