PSP - 基于扩散生成模型预测蛋白质结构 EigenFold 算法与环境配置

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/132357976

EigenFold

Paper: EigenFold: Generative Protein Structure Prediction with Diffusion Models

EigenFold 是用于蛋白质结构预测的扩散生成模型(即,已知序列 至 结构分布)。基于谐波扩散,将键约束纳入扩散建模框架,并且产生一个级联分辨率的生成过程。

  • 扩散生成模型 (Diffusion Generative Model):利用随机扩散过程,生成数据样本的机器学习模型。
  • 谐波扩散 (Harmonic Diffusion):考虑谐波势能对于扩散过程的影响的数学模型。
  • 键约束 (Bond Constraints):限制蛋白质中原子间距离和角度变化范围的物理条件。
  • 级联分辨率 (Cascading-Resolution) :从粗糙到精细,逐步提高生成结果质量的方法。
  • OmegaFold 嵌入向量(OmegaFold Embeddings):由 OmegaFold 模型产生的,表示蛋白质序列特征的向量。

关于 EigenFold,即:

We define a diffusion process that models the structure as a system of harmonic oscillators and which naturally induces a cascading-resolution generative process along the eigenmodes of the system.
扩散过程,即将结构模型化为谐振子 (Harmonic Oscillators) 系统,该过程自然地沿着系统的本征模式 (Eigenmodes),产生级联分辨率的生成过程。

EigenFold 算法重点:

  • 蛋白质结构生成的新方法: 基于扩散模型的生成式模型,可以从给定的蛋白质序列生成一组可能的结构。该模型利用 OmegaFold 的预训练嵌入和得分网络来学习蛋白质结构的概率分布。
  • 谐波扩散过程:定义新的扩散过程,将蛋白质结构建模为一系列谐振子,其势能为相邻残基之间的距离的二次函数。该过程可以保证采样的结构满足化学约束,并且可以沿着系统的本征模式进行投影,实现逐步精细化的生成过程。
  • 得分网络架构:使用基于 E3NN 的图神经网络作为得分网络,输入为残基坐标和 OmegaFold 嵌入向量,输出为梯度向量。该网络具有 SE(3) 等变性,保证最终模型密度也具有 SE(3) 不变性。

EigenFold GitHub: https://github.com/bjing2016/EigenFold


1. 结构预测

准备 new.csv 文件,预测 7skh.B 的结构,即:

# with columns name, seqres (see provided splits for examples) and run
name,valid_alphas,seq,head,resolution,deposition_date,release_date,structure_method,seqres,seqlen
7skh.B.pdb,220,NAPVFQQPHYEVVLDEGPDTINTSLITVQALDGTVTYAIVAGNIINTFRINKHTGVITAAKELDYEISHGRYTLIVTATDQCPILSHRLTSTTTVLVNVNDINDNVPTFPRDYEGPFDVTEGQPGPRVWTFLAHDRDSGPNGQVEYSVVDGDPLGEFVISPVEGVLRVRKDVELDRETIAFYNLTICARDRGVPPLSSTMLVGIRVLDINDNLEHHHHHH,cell adhesion,2.27,2021-10-20,2022-10-26,x-ray diffraction,MNAPVFQQPHYEVVLDEGPDTINTSLITVQALDLDEGPNGTVTYAIVAGNIINTFRINKHTGVITAAKELDYEISHGRYTLIVTATDQCPILSHRLTSTTTVLVNVNDINDNVPTFPRDYEGPFDVTEGQPGPRVWTFLAHDRDSGPNGQVEYSVVDGDPLGEFVISPVEGVLRVRKDVELDRETIAFYNLTICARDRGVPPLSSTMLVGIRVLDINDNLEHHHHHH,227

运行命令:

python make_embeddings.py --out_dir ./embeddings --splits mydata/new.csv
python inference.py --model_dir ./pretrained_model --ckpt epoch_7.pt --pdb_dir ./structures --embeddings_dir ./embeddings --embeddings_key name --elbo --num_samples 5 --alpha 1 --beta 3 --elbo_step 0.2 --splits mydata/new.csv

预测的蛋白质结构,如下:

  • EigenFold 算法只能预测 CA 骨架,其余需要填充。
  • 黄色是 EigenFold 的预测结构,蓝色是真实的 PDB 结构 (7skh.B)。

即:

Img


2. 环境配置

下载 GitHub 工程:

git clone git@github.com:bjing2016/EigenFold.git

2.1 配置 Docker 环境

构建 Docker 环境:

nvidia-docker run -it --name eigenfold-[your name] -v [nfs path]:[nfs path] af2:v1.02

预先配置 Docker 环境中的 conda 源 与 pip 源,加速下载过程,参考 开源可训练的蛋白质结构预测框架 OpenFold 的环境配置

如果安装错误,清空 conda 环境,建议使用 rsync 快速删除,即:

mkdir tmp
rsync -a --delete tmp/ /opt/conda/envs/eigenfold
rm -rf /opt/conda/envs/eigenfold

配置 conda 环境,即:

# 安装 conda 环境
conda create -n eigenfold python=3.8
conda activate eigenfold

2.2 配置 PyTorch 系列包

安装 PyTorch,建议使用 conda 安装,而不是 pip 安装,参考 Installing Previous Versions of PyTorch 即:

# pip 安装异常,建议使用 conda 安装。
# pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

预先测试 PyTorch 是否安装成功,即:

pythonimport torch
print(torch.__version__)  # 1.11.0
print(torch.cuda.is_available())  # True

再安装 PyTorch 相关包,一共 5 个包,即 torch-scattertorch-sparsetorch-clustertorch-spline-convtorch-geometric,建议逐个安装,排查问题,即:

pip install torch-scatter -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-sparse -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-cluster -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-spline-conv -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
pip install torch-geometric -f https://data.pyg.org/whl/torch-1.11.0+cu113.html

安装其他依赖包:

pip install e3nn pyyaml wandb biopython matplotlib pandas

2.3 配置 OmegaFold 依赖

安装 OmegaFold 依赖,即:

# 调用时,需要在 EigenFold 的根目录下。
wget https://helixon.s3.amazonaws.com/release1.pt
git clone https://github.com/bjing2016/OmegaFold
pip install --no-deps -e OmegaFold

注意需要预先下载 OmegaFold 的模型 release1.pt,大约 3 个 G左右。

OmegaFold GitHub: OmegaFold

This command will download the weight from https://helixon.s3.amazonaws.com/release1.pt to ~/.cache/omegafold_ckpt/model.pt and load the model

cd EigenFold
bypy info
bypy downfile /huggingface/eigenfold/omegafold-release1.pt model.pt

2.4 配置 TMScore 与 LDDT

安装 TMScore 与 LDDT,即:

mkdir /opt/bin
cd ~/binwget https://openstructure.org/static/lddt-linux.zip
unzip lddt-linux.zip
cp lddt-linux/lddt .
./lddt  # 测试wget https://zhanggroup.org/TM-score/TMscore.cpp
g++ -static -O3 -ffast-math -lm -o TMscore TMscore.cpp
./TMscore  # 测试export PATH="/opt/bin/:$PATH"

2.6 上传 Docker

提交 docker image,设置标签 (tag),以及上传 docker 至服务器,即:

# 提交 Tag
docker ps -l
docker commit [container id] eigenfold:v1.0# 准备远程 Tag
docker tag eigenfold:v1.0 harbor.[ip].com/[your name]/eigenfold:v1.0
docker images | grep "eigenfold"# 推送至远程
docker push harbor.[ip].com/[your name]/eigenfold:v1.0
# 从远程拉取
docker pull harbor.[ip].com/[your name]/eigenfold:v1.0# 或者保存至本地
docker save eigenfold:v1.0 | gzip > eigenfold_v1_0.tar.gz
# 加载已保存的 docker image
docker image load -i eigenfold_v1_0.tar.gz
docker images | grep "eigenfold"

BugFix

Bug1: torch_sparse 版本不兼容问题。

RuntimeError: 
object has no attribute sparse_csc_tensor:File "/opt/conda/envs/eigenfold/lib/python3.8/site-packages/torch_sparse/tensor.py", line 520value = torch.ones(self.nnz(), dtype=dtype, device=self.device())return torch.sparse_csc_tensor(colptr, row, value, self.sizes())~~~~~~~~~~~~~~~~~~~~~~~ <--- HERE

参考: torch has no attribute sparse_csr_tensor

torch-sparse 降级至 0.6.14 版本,即可:

conda list torch-sparse
# packages in environment at /opt/conda/envs/eigenfold:
#
# Name                    Version                   Build  Channel
torch-sparse              0.6.17                   pypi_0    pypipip install torch-sparse==0.6.14 -f https://data.pyg.org/whl/torch-1.11.0+cu113.html

Bug2: Python 3.9 新特性不兼容问题

TypeError: unsupported operand type(s) for |: 'dict' and 'dict'

原因:What’s New In Python 3.9

方案1是升级至 Python3.9 版本,方案2是修改源码,位于EigenFold/utils/pdb.py,即:

# d[key] = {'CA': 'C'} | {key: val['symbol'] for key, val in atoms.items() if val['symbol'] != 'H' and key != 'CA'}
dict1 = {'CA': 'C'}
dict2 = {key: val['symbol'] for key, val in atoms.items() if val['symbol'] != 'H' and key != 'CA'}
d[key] = {**dict1, **dict2}

其余参考:

  • Linux 下删除大量文件效率对比,看谁删的快!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/43289.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【面试八股文】每日一题:谈谈你对线程的理解

每日一题-Java核心-谈谈你对线程的理解【面试八股文】 Java线程是Java程序中的执行单元。一个Java程序可以同时运行多个线程&#xff0c;每个线程可以独立执行不同的任务。线程的执行是并发的&#xff0c;即多个线程可以同时执行。 1. 线程的特点 Java中的线程有如下的特点 轻…

react-native-webview使用postMessage后H5不能监听问题(iOS和安卓的兼容问题)

/* 监听rn消息 */ const eventListener nativeEvent > {//解析数据actionType、extraconst {actionType, extra} nativeEvent.data && JSON.parse(nativeEvent.data) || {} } //安卓用document&#xff0c;ios用window window.addEventListener(message, eventLis…

Jenkins-发送邮件配置

在Jenkins构建执行完毕后&#xff0c;需要及时通知相关人员。因此在jenkins中是可以通过邮件通知的。 一、Jenkins自带的邮件通知功能 找到manage Jenkins->Configure System&#xff0c;进行邮件配置&#xff1a; 2. 配置Jenkins自带的邮箱信息 完成上面的配置后&#xf…

DiffusionDet: Diffusion Model for Object Detection

DiffusionDet: Diffusion Model for Object Detection 论文概述不同之处整体流程 论文题目&#xff1a;DiffusionDet: Diffusion Model for Object Detection 论文来源&#xff1a;arXiv preprint 2022 论文地址&#xff1a;https://arxiv.org/abs/2211.09788 论文代码&#xf…

kubesphere 使用流水线对接 sonar

官方文档&#xff1a;使用图形编辑面板创建流水线 创建凭证 创建 sonar 凭证 创建 gitlab 凭证 创建流水线 创建流水线&#xff0c;编辑流水线 自定义流水线 拉取代码 代理选 kubernetes&#xff0c;label 填maven 添加步骤 - git 填写 git 地址&#xff0c;选…

CSS 背景属性

前言 背景属性 属性说明background-color背景颜色background-image背景图background-repeat背景图平铺方式background-position背景图位置background-size背景图缩放background-attachment背景图固定background背景复合属性 背景颜色 可以使用background-color属性来设置背景…

【计算机设计大赛】国赛一等奖项目分享——基于多端融合的化工安全生产监管可视化系统

文章目录 一、计算机设计大赛国赛一等奖二、项目背景三、项目简介四、系统架构五、系统功能结构六、项目特色&#xff08;1&#xff09;多端融合&#xff08;2&#xff09;数据可视化&#xff08;3&#xff09;计算机视觉&#xff08;目标检测&#xff09; 七、系统界面设计&am…

前端打开后端返回的HTML格式的数据

前端打开后端返回的 HTML格式 的数据&#xff1a; 后端返回的数据格式如下示例&#xff1a; 前端通过 js 方式处理&#xff08;核心代码如下&#xff09; console.log(回调, path); // path 是后端返回的 HTML 格式数据// 必须要存进localstorage&#xff0c;否则会报错&am…

步入React正殿 - State进阶

目录 扩展学习资料 State进阶知识点 状态更新扩展 shouldComponentUpdate PureComponent 为何使用不变数据【保证数据引用不会出错】 单一数据源 /src/App.js /src/components/listItem.jsx 状态提升 /src/components/navbar.jsx /src/components/listPage.jsx src/A…

Uniapp连接蓝牙设备

一、效果图 二、流程图 三、实现 UI <uni-list><uni-list :border="true"><!-- 显示圆形头像 -->

C语言案例 判断是否为回文数-06.1

题目&#xff1a;随机输入一个5位数&#xff0c;判断它是不是回文数 步骤一&#xff1a;定义程序的目标 编写C程序&#xff0c;随机输入一个5位数&#xff0c;判断它是不是回文数 步骤二&#xff1a;程序设计 原理&#xff1a;即12321是回文数&#xff0c;个位与万位相同&#…

SpringBoot + Vue 微人事(十)

职位管理前后端接口对接 先把table中的数据展示出来&#xff0c;table里面的数据实际上是positions里面的数据&#xff0c;就是要给positions:[] 赋上值 可以在methods中定义一个initPosition方法 methods:{//定义一个初始化positions的方法initPositions(){//发送一个get请求…

web JS高德地图标点、点聚合、自定义图标、自定义窗体信息、换肤等功能实现和高复用性组件封装教程

文章目录 前言一、点聚合是什么&#xff1f;二、开发前准备三、API示例1.引入高德地图2.创建地图实例3.添加标点4.删除标点5.删除所有标点&#xff08;覆盖物&#xff09;6.聚合点7.自定义聚合点样式8.清除聚合9.打开窗体信息 四、实战开发需求要求效果图如下&#xff1a;封装思…

(二)Git在公司中团队内合作和跨团队合作和分支操作的全部流程(一篇就够)

&#xff08;一&#xff09;Git连接GitHub的全部流程https://blog.csdn.net/m0_65992672/article/details/132333727 团队内协作 项目经理通过git push将代码推送到远程仓库【也就是git、gitee等代码托管中心】,推完以后组员可以通过git clone克隆下来代码&#xff0c;如果组…

redis主从复制

随着项目访问量的增加&#xff0c;对Redis服务器的操作也越加频繁&#xff0c;虽然Redis读写速度都很快&#xff0c;但是一定程度上也会造成一定的延时&#xff0c;那么为了解决访问量大的问题&#xff0c;通常会采取的一种方式是主从架构Master/Slave&#xff0c;Master 以写为…

C运行时错误——error realloc(): invalid next size

在LeetCode做题时遇到一个运行时错误&#xff0c;将引起问题的原因记录一下备忘&#xff1a; 我们在malloc或calloc等API分配内存时&#xff0c;libc库除了分配给我们在参数中设定大小的内存&#xff08;可能会有内存对齐&#xff0c;实际分配的比参数设定的要多&#xff09;&…

填充柄功能

单元格右下角十字符号 顺序式填充 输入1,2&#xff0c;直接拉取即可实现顺序1到10. 复制式填充 CtrlD或者拉取&#xff0c;选择右下角复制单元格。 规律式填充 输入星期一&#xff0c;星期二&#xff0c;下拉一直可以到星期日 自定义填充 选择文件-》选项-》自定义序列 输…

【python办公自动化】PysimpleGUI中的popup弹窗中的按钮设置居中

PysimpleGUI中的popup弹窗中的按钮设置居中 背景问题解决背景 默认的popup弹窗中的OK按钮是在最下面偏左侧一些,有时需要将按钮放置居中 问题解决 首先找到pysimplegui源代码文件中popup的部分 然后定位到19388行,源文件内容如下 关于popup弹窗OK按钮的设置,将pad属性…

STM32——SPI外设总线

一、SPI外设简介 STM32内部集成了硬件SPI收发电路&#xff0c;可以由硬件自动执行时钟生成、数据收发等功能&#xff0c;减轻CPU的负担【硬件电路自动生成时序】 可配置8位/16位数据帧、高位先行/低位先行 时钟频率&#xff1a; fPCLK / (2, 4, 8, 16, 32, 64, 128, 256)【SP…