分子生成工具 - ResGen 评测

ResGen 模型是浙江大学药学院侯廷军老师课题组2023年发表在nature machine intelligence期刊上文章Nature Machine Intelligence | Volume 5 | September 2023 | 1020–1030,题目为:《ResGen is a pocket-aware 3D molecular generation model based on parallel multiscale modelling》。

合作单位是碳硅智能,第一作者是HaotianZhang。

一、文章简介

ResGen是基于蛋白口袋为条件的三维分子生成的E3等变自回归模型。

ResGen建立在并行多尺度建模的原理之上,可以捕获更高层次的口袋分子交互并实现更高的计算效率(比之前最好的模型快大约八倍)。

为了更好地考虑蛋白质口袋的几何形状,生成过程被表述为两个分层自回归:全局自回归原子自回归

全局自回归在口袋里生成原子,原子自回归是依次产生新添加的原子的坐标和拓扑。

与其他分子生成模型相同,ResGen模型同样遵循E3等变特性。模型结构如下图:

上图a 在分子生成的过程中,逐步地确认生长点,添加原子(全局自回归),确认原子的位置,然后添加边(原子自回归)。

在图b中,口袋和参考分子被表示成原子特征(vector)和原子坐标(scalar)。

残基原子并行多尺度建模,大球体代表不同的残基,而口袋内的小球体代表原子。

分子生成过程如下图。图中灰色点云,例如 i 中的灰色点云,代表新生成的原子,仅具有位置信息。

彩色点云,例如ii中的绿色点云,是新生成的原子,并补充了原子类型。

红色圆圈表示每一步的焦点原子(focal atom, 生长点),而数字是每个原子成为生长点的概率。

正是因为ResGen模型的分子中的后面的原子是基于前面生成原子来生成的,所以ResGen模型是自回归模型。

作者的结果表明,ResGen 在生成新型分子方面,比现有最先进的方法具有更高的成功率,这些分子可以比原始配体更紧密地与靶点结合。

此外,在从头药物设计的现实场景中回顾性计算实验表明,ResGen 成功地生成了更低的结合能和更高的多样性的药物样分子,优于当前最优模型。

以CDK2和ATK1两个靶点为例,作者列出了ResGen模型与GrapBP,Pocket2mol

对比的结果,发现ResGen能生成Vina score更低的分子,如下图。

其实,基于E3等变网络的分子生成模型很多,我们之前就介绍过targetdiff,是基于E3等变模型的扩散分子生成模型。

但是,这些模型大多数都是基于ENGG网络(EDM网络),模型结构都基本一致,分子和蛋白的表示方法非常相同,均以原子坐标和元素种类的onehot,可能加上电荷。

文章之间的差别仅有生成网络结构或者应用的区别。

例如:3DLinker,是基于VAE架构的E3等变分子生成网络。targetdiff,是基于E3等变模型的扩散分子生成模型。

而且这些模型的特点是,可以生成3D的分子。

这篇文章的作者,显然是做药物设计出身的,计算背景。

理解到,当前这些模型表示分子的方式过于简单,模型处理分子-蛋白的方法过于粗糙,于是,想通过更加合理的E3模型架构(前文提到的两层自回归模型,全局自回归和分子成分自回归)实现更好的实现生成更加有“活性”的分子。

所以这篇文章的亮点在于口袋的parallel multiscale modelling,作者并没有简单而直接的套用EDM等等变网络。

这就是药物设计专家的AI思路,比的不是更好的通用模型,而是更符合药物设计的模型架构。

与之类似的思路,中国科技大学的刘琦老师,也是类似的思路,例如之前介绍的FLAG, 是基于motif来实现的分子生成。

二、文章中模型结果

作者比较了GraphBP, Pocket2Mol, ResGen,以及测试集中(生成分子) top k 小vina score 的平均值,以及对应的QED, SA等类药性质,结果发现,ResGen要明显好于其他方法,也好于测试集。结果图下表:

其中,hit Pocket,代表生成的分子对于给定目标具有比其原始配体更高的结合亲和力的概率。

在生成分子的多样性方面,ResGen模型生成的分子更加的多样,如下表:

作者以AKT1和CDK2作为案例,比较了生成分子的vina score 分布,生成构象与预测构象的RMSD,以及生成分子的相互作用。

发现,ResGen生成分子的Vina score 更低,说明结合力越强,捕获到更多的相互作用,生成的构象与软件计算的构象更相似。

作者同样分析了在AKT1和CDK2两个体系上生成分子的vina score 和类药性质,如下:

但是通过这个案例,以及前文的图,好像ResGen生成的分子更大,那么Vina score就会更低。

可能模型更好的学会了,在口袋中长分子?当然,能把分子长出来就是能力。

此外,SA打分更高,说明生成分子的可合成型更好。

RSMSD更低,说明ResGen生成的分子更真实。这些都说明ResGen模型要优于GraphBP, Pocket2Mol。

关于生成分子构象更合理的方面,作者计算了不同原子键类型的键长分布的Jensen–Shannon散度(较低的值表示两个分布更相似)。

结果如下表:

可能是由于同一时期的缘故,作者并没有对Targetdiff进行对比。

看起来,ResGen生成分子的可合成性更好一些,更类药一些。

三、案例实测

下面我们进行简单的测评。

3.1 复制项目

首先复制项目

git clone https://github.com/HaotianZhangAI4Science/ResGen.git

复制完成后,项目目录为:

.
├── ckpt
├── configs
├── data
├── evaluation
├── examples
├── figures
├── gen_all.py
├── gen.py
├── LICENSE
├── models
├── process_data.py
├── readme.md
├── resgen.yml
├── train.py
└── utils8 directories, 7 files

3.2 环境安装

执行如下代码。

(注:不同的机子配置很有可能安装不同,需要多尝试一下。作者使用的pytorch-cluster 安装比较诡异):

# 创建环境
conda create -n Resgen python=3.10
conda activate Resgen
# 安装pytorch,严格按照cuda版本
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
# 
conda install pyg -c pyg
conda install -c conda-forge rdkit
conda install biopython -c conda-forge
conda install pyyaml easydict python-lmdb -c conda-forgeconda install pytorch-cluster -c pyg
conda install -c conda-forge torch-scatter

作者提供了训练好的模型checkpoint,下载链接:

https://drive.google.com/file/d/1RoVnHBLuPGFh2qGlCMoCRKtY-Rribp0j/view

下载的ckpt为:val_172.pt。下载完成后,放置在./ckpt目录下。

3.3 案例测试

作者提供了两个测试体系,分别为4iiy和14gs。

我们先创建一个测试文件夹 Test, 然后将./example文件夹下的4iiy.pdb和4iiy_ligand.sdf,复制到Test目录下。

cp ./examples/4iiy.pdb ./Test/
cp ./examples/4iiy_ligand.sdf ./Test/

3.3.1 4iiy

4iiy的口袋比较深,小分子很好嵌入在口袋中,如下图:

我们尝试使用下面命令生成分子:

python gen.py \--pdb_file ./Test/4iiy.pdb \--sdf_file ./Test/4iiy_ligand.sdf \--outdir ./Test_4iiy \--device cpu # cuda

其中,--sdf_file ./examples/4iiy_ligand.sdf 为对应的配体,用于识别配体中心,以便生成分子。

运行输出:

... ...
successfully generate: O=C1C=C=NC=C1
successfully generate: O=C1C=CN=C=C1O
successfully generate: Oc1cccc(O)c1
successfully generate: O=C1C=C(CO)C=CC1
successfully generate: O=c1cc(CO)cc[nH]1
successfully generate: O=C(O)CCOCCO
successfully generate: O=P1(O)OCC(O)CO1
successfully generate: O=C(O)CCC(=O)CO
successfully generate: O=C1C=C=CC(CO)=C1
... ...
# 一共会产生100个分子

我这里是使用CPU生成分子的,时间大约花了2个小时。

(GPU我也试了一下,3090 花了20分钟。。。效率有点慢,没有作者说的那么快)

运行完成以后,会在./目录下生成./Test_4iiy文件夹,./Test_4iiy目录内容如下:

(base) [wufeil@a01 Test_4iiy]$ tree -L 2
.
└── 4iiy_ligand├── 4iiy_ligand_gen.sdf├── 4iiy.pdb└── SDF
其中,SDF文件夹是保存了每个生成的分子,一共生成了100个分子。默认是生成100个分子。

所有分子汇总保存在了4iiy_ligand_gen.sdf文件夹内,挑选序号分别为:1,10,20,50,100的分子,截图如下:

如上图所示,分子似乎是不断长大的。更多的分子结构展示如下视频:

从视频结果来看,确实是逐渐长大的,而且分子的类型并不多,相同的子结构现象明显。

从smiles中更明显,生成smile中有明显重复的结构:OCC(O)C(O)CO和O=C1C=CC(O)CN1。

ResGen模型更像是生成了一两个系列的小分子,而不是完全不一致的小分子。

当然,这就是自回归生成模型的特点,初始生长的分子片段,很大程度上会影响后期生长出来的分子片段。

当然,也可以理解为ResGen模型生成了一个分子,就是最后一个102分子,如下图:

ResGen模型有一个优点,那就是,生成的分子的构象,感觉上更为合理,而且健和原子种类更合适,更像一个药物分子。

这一点是targetdiff等模型做不到的。

四、总结

这是一个非常好的分子生成项目,而且还开源了。项目代码也比较完整。

侯廷军老师的工作特点,正如之前所说的,非常靠近药物设计。

虽然,模型不是那么前沿,没有利用了diffusion之类的,但是值得好好学习。

毕竟,合适才是最好的。

但是模型也存在一些问题,生成效率慢,100个分子使用 3090 GPU花费了20分钟。

另外就是,生成分子的多样性太少,100个分子,实际上只有几个有用的分子,仅包含2~3个系列。

这两个问题,都与自回归模型有关。

github 链接:

GitHub - HaotianZhangAI4Science/ResGen: 3D_Molecular_Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/239022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java: -source 7 中不支持 lambda 表达式 (请使用 -source 8 或更高版本以启用 lambda 表达式)

目录 1、检查项目中 JDK 的设置: 2、检查模块中 JDK 的设置: 3、检查Idea 中的SDK设置 4、检查 IDEA 中 JDK 的设置(我出现的问题在这): 今天遇见了一个报错: 问题产生的原因是 JDK 版本太低&#xf…

【JAVA面试题】什么是深拷贝?什么是浅拷贝?

🍎个人博客:个人主页 🏆个人专栏: JAVA ⛳️ 功不唐捐,玉汝于成 目录 前言 一、解释 1. 深拷贝(Deep Copy): 2. 浅拷贝(Shallow Copy)&#xff1…

企业级“RAS”的数据平台如何炼成?

从“看报表”到“数据分析结果直接投入运营”,数字化正在深入企业经营,数据系统正在成为核心生产系统。相应的,企业对“作业挂了”、“系统崩了”、“算不出来”的容忍度越来越低——只有足够稳定、可靠、专业的数据系统,才能及时…

原生微信小程序中使用-阿里字体图标-详解

步骤一 1、打开阿里巴巴矢量图标库 网址:iconfont-阿里巴巴矢量图标库 2、搜索字体图标,鼠标悬浮点击添加入库 3、按如下步骤添加到自己的项目 步骤二 进入微信开发者工具 1、创建 fonts文件夹 > iconfont.wxss 文件,将刚才的代码复制…

python脚本传参

sys.argvargparse 第一种:argparse 简单使用: import argparse # 创建一个参数解析实例 parser argparse.ArgumentParser(descriptionParameters) # 添加参数解析 parser.add_argument(--training_epoch, typeint, default3000) parser.add_argument(…

进程间通信---无名管道

无名管道和有名管道的区别: 无名管道只能用于父进程和子进程之间通信,而有名管道可以用于任意两个进程间通信 管道工作的原理: 切记:无名管道一旦创建完成后,操作无名管道等同于操作文件,无名管道的读端/写…

Codeforces Round 862 (Div. 2)

Problem - A - Codeforces AC代码: #include<bits/stdc.h> #define endl \n //#define int long long using namespace std; const int N1e310; int a[N]; int n; void solve() {cin>>n;int ans0;for(int i1;i<n;i) cin>>a[i],ans^a[i];if(n%21){for(in…

测试开发体系介绍——测试体系介绍-L2

目录&#xff1a; 被测系统架构与数据流分析 开源项目 LiteMall 系统架构&#xff1a;开源项目 Mall 的系统架构&#xff1a;如何快速了解一家公司的架构统一建模语言 UML推荐工具梳理业务流程&#xff1a;使用思维导图分析功能点:使用时序图分析数据流:使用活动图分析测试用例…

快手×东方卫视《超省钱大会》荣获“TV地标”2023年度优秀融媒体节目

12月19日&#xff0c;“TV地标”&#xff08;2023&#xff09;电视媒体和网络视听暨“时代之声”&#xff08;2023&#xff09;广播业综合实力大型调研成果发布会在京举办&#xff0c;国家广播电视总局主管的《中国广播影视》杂志公布了此次调研榜单。快手凭借与东方卫视、京东…

2024年你的年度目标OKR制定好了吗?

标题2023年余额见底&#xff0c;2024年的FLAG都制定好了吗&#xff1f; 目标很明确&#xff0c;计划很丰满&#xff0c;执行起来又处处透着一点点乏力&#xff0c;怎么办&#xff1f; 2024年可以尝试用OKR制定目标。 OKR目标管理方法&#xff0c;既适用于企业&#xff0c;也…

flutter + firebase 云消息通知教程 (android-安卓、ios-苹果)

如果能看到这篇文章的 一定已经对手机端的 消息推送通知 有了一定了解。 国内安卓厂商这里不提都有自己的FCM 可自行查找。&#xff08;国内因无法科学原因 &#xff0c;不能使用谷歌服务&#xff09;只说海外的。 目前 adnroid 和 ios 推送消息分别叫 FCM 和 APNs。这里通过…

UG阵列面、阵列集合特征和阵列特征的区别

阵列面 对面进行阵列&#xff0c;当实体中被切除特征的时候可以使用阵列面&#xff0c;当这个命令去阵列一个实体的时候&#xff0c;阵列的是一个片体&#xff0c;优点是速度快&#xff0c;缺点是功能较简单&#xff1b; 阵列几何特征 对实体进行阵列&#xff0c;可以一次性选…

【稳定检索|投稿优惠】2024年绿色能源与电网电力系统国际会议(ICGEGPS 2024)

2024年绿色能源与电网电力系统国际会议(ICGEGPS 2024) 2024 International Conference on Green Energy and Grid Power Systems(ICGEGPS) 一、【会议简介】 2024年绿色能源与电网电力系统国际会议(ICGEGPS 2024)将在宜宾盛大召开。本次会议将聚焦绿色能源与电网电力系统的最新…

教你在Linux上安装Node并用Electron打包deb和rpm包

Windows下无法打linux版本的包&#xff0c;如果你要打linux系统的amd64架构需要找一台linux amd64的系统打包&#xff0c;也可以在amd64下打arm架构的包&#xff0c;但是不能运行&#xff0c;需要放到arm架构的系统里才能运行。 下载linux的node环境 Index of /nodejs-releas…

WinRAR如何设置和清除密码?

WinRAR是一款功能强大的压缩管理器&#xff0c;除了能把文件打包变小&#xff0c;还能给压缩包设置密码保护&#xff0c;让文件不能随意打开&#xff0c;不需要时还可以把密码取消。下面来说说具体怎么操作吧。 WinRAR根据需要可以设置单次密码和永久密码&#xff0c;我们分别…

Spring Environment 注入引起NPE问题排查

文章目录 背景原因分析1&#xff09;Spring Aware Bean 是什么&#xff1f;2&#xff09;从 Spring Bean 的生命周期入手 解决方案 背景 写业务代码遇到使用 Spring Environment 注入为 null 的情况&#xff0c;示例代码有以下两种写法&#xff0c;Environment 实例都无法注入…

Megatron模型并行研究

Megatron模型并行研究 1. 技术调研 a. Megatron-LM Megatron-LM针对的是特别大的语言模型&#xff0c;使用的是模型并行的训练方式。但和普通的模型并行不同&#xff0c;他采用的其实是张量并行的形式&#xff0c;具体来说就是将一个层切开放到不同的GPU上&#xff0c;属于层…

Java中升级属性复制转换功能

前言 在java中,经常碰到bean之间的转换,诸如Entity转VO,Entity转DTO等等,这时,经常会碰到这样一种情况,VO和DTO里面有一个字段都是来源于Entity里面,但是属性名称和属性类型都不一样,虽然转换逻辑一致但是我们还是只能手动转换,这时如果我在代码中手动转换会出现很多多…

基于SSM的旅游网站设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

设计模式:循序渐进走入工厂模式

文章目录 前言一、引入二、简单工厂模式1.实现2.优缺点3.扩展 三、工厂方法模式1.实现2.优缺点 四、抽象工厂模式1.实现2.优缺点3.使用场景 五、模式扩展六、JDK源码解析总结 前言 软件设计模式之工厂模式。 一、引入 需求&#xff1a;设计一个咖啡店点餐系统。 设计一个咖啡类…