DTI综述(更新中)

Deep Learning for drug repurposing:methods,datasets,and applications

综述读完,觉得少了点东西,自己写个DTI综述

Databases(包括但不限于文章中的)

DATABASEDESCRIBE
BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE对抗癌药物有用
ChemDB提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget用于分析DTI和药物副作用
BioSNAPDTI
HUMANDTI
TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没

数据集

datasetcontentssource
BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-github
BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-github
HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-github

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

模型

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Modeldrugtarget(pr)architecturetaskyear
Gao et alMolecular graphAmino acid sequenceGCN,LSTM,two-way attention mechanismDTI2018
DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
DeepConv-DTIFingerprintProtein sequenceCNN,DNNDTI2019
MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019
Rifaioglu et al.SMILESProtein sequence structural,evolutionary and physicochemical propertiesCNNDTA2020
MolTransSMILES->子结构序列Protein sequence ->子结构序列encoder: transformer ,fusion: CNNDTI2020
TransformerCPIMolecular graphProtein sequence(CONV1D+ GLU)Transformer encoder,transformer decoderCPI2020
Yang li et al.
DeepDTI
ImageMol
MultiDTI (没啥用)SMILESProtein sequence(还有drug、target、disease、side effect 之间的,直接编码)CNN,MLPDTI2021
MOVESMILESProtein sequence(还有drug、target、disease、side effect ,后两个直接编码)CNN,GCN,MLP,图attention,contrastive learningDTI2022
CLOOMESMILES->Morgan fingerprintsMolecular imagedescriptor-based fully-connected networks,resnet,continuous modern Hopfield networks,contrastive learningdrug discovery2022 ICLR workshop
DrugBANMolecular graphProtein sequenceGCN,CNN,biattentionDTI2023

Drug encoder

cnn不写了

MODELINPUT
GCNMolecular graph
Graph Transformer没找到
Transformer encodersequence(one-hot 向量,MolTrans)

Protein encoder

cnn不写了
方法1:k-gram(k=3)+word2vec(transformerCPI)

MODELINPUT
CNNProtein sequence
Protein BertProtein sequence
ESMProtein sequence

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/112230.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐《中华小当家》

《中华小当家!》 [1] 是日本漫画家小川悦司创作的漫画。该作品于1995年至1999年在日本周刊少年Magazine上连载。作品亦改编为同名电视动画,并于1997年发行播出。 时隔20年推出续作《中华小当家!极》,于2017年11月17日开始连载。…

简单秒表设计仿真verilog跑表,源码/视频

名称:简单秒表设计仿真 软件:Quartus 语言:Verilog 代码功能: 秒表显示最低计时为10ms,最大为59:99,超出返回00:00 具有复位、启动、暂停三个按键 四个数码管分别显示4个时间数字。 演示…

LCR 177. 撞色搭配

LCR 177. 撞色搭配 LCR 177. 撞色搭配 迷你游戏之寻找两个单身狗 int* sockCollocation(int* sockets, int socketsSize, int* returnSize) {int* arr (int*)malloc(2 * sizeof(int));int ret 0;for (int i 0; i < socketsSize; i){ret ^ sockets[i];}int pos 0;for…

【七:docken+jenkens部署】

一&#xff1a;腾讯云轻量服务器docker部署Jenkins https://blog.csdn.net/qq_35402057/article/details/123589493 步骤1&#xff1a;查询jenkins版本&#xff1a;docker search jenkins步骤2&#xff1a;拉取jenkins镜像 docker pull jenkins/jenkins:lts步骤3&#xff1a;…

python -pandas -处理excel合并单元格问题

对于合并的单元格&#xff0c;不进行处理情况下&#xff0c;会默认输出nan问题 解决方法&#xff1a; class A(object):def __init__(self, xlsx_file_path, sheet_index):self.xlsx_file FileDataProcesser.read_excel(xlsx_file_path, sheet_index)self.sheet_data self.…

GitLab使用webhook触发Jenkins自动构建

1、jenkins安装gitlab插件 在插件管理中&#xff0c;搜索gitlab安装这个插件。 2、job中配置webhook地址和密钥 进入job设置&#xff0c;构建触发器中就可以看到gitlab的webhook配置&#xff0c;复制URL地址和随机令牌至gitlab中 勾选后&#xff0c;就可以展开设置&#xff…

代码随想录算法训练营第五十五天 | 300.最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

300.最长递增子序列 视频讲解&#xff1a;动态规划之子序列问题&#xff0c;元素不连续&#xff01;| LeetCode&#xff1a;300.最长递增子序列_哔哩哔哩_bilibili 代码随想录 &#xff08;1&#xff09;代码 674. 最长连续递增序列 视频讲解&#xff1a;动态规划之子序列问题…

YOLOv5-调用官方权重进行检验(目标检测)

&#x1f368; 本文为[&#x1f517;365天深度学习训练营学习记录博客 &#x1f366; 参考文章&#xff1a;365天深度学习训练营-第7周&#xff1a;咖啡豆识别&#xff08;训练营内部成员可读&#xff09; &#x1f356; 原作者&#xff1a;[K同学啊 | 接辅导、项目定制](https…

点云处理【四】(点云关键点检测)

第一章 点云数据采集 第二章 点云滤波 第二章 点云降采样 1.点云关键点是什么&#xff1f; 关键点也称为兴趣点&#xff0c;它是2D图像、3D点云或曲面模型上&#xff0c;可以通过定义检测标准来获取的具有稳定性、区别性的点集。 我们获得的数据量大&#xff0c;特别是几十万…

【MySQL】数据库——表操作

文章目录 1. 创建表2. 查看表3. 修改表修改表名add ——增加modify——修改drop——删除修改列名称 4. 删除表 1. 创建表 语法&#xff1a; create table 表名字 ( 列名称 列类型 ) charset set 字符集 collate 校验规则 engine 存储引擎 ; charset set字符集 &#xff0c;若…

Java设计模式 | 基于订单批量支付场景,对策略模式和简单工厂模式进行简单实现

基于订单批量支付场景&#xff0c;对策略模式和简单工厂模式进行简单实现 文章目录 策略模式介绍实现抽象策略具体策略1.AliPayStrategy2.WeChatPayStrategy 环境 使用简单工厂来获取具体策略对象支付方式枚举策略工厂接口策略工厂实现 测试使用订单实体类对订单进行批量支付结…

景联文科技语音数据标注:AUTO-AVSR模型和数据助力视听语音识别

ASR、VSR和AV-ASR的性能提高很大程度上归功于更大的模型和训练数据集的使用。 更大的模型具有更多的参数和更强大的表示能力&#xff0c;能够捕获到更多的语言特征和上下文信息&#xff0c;从而提高识别准确性&#xff1b;更大的训练集也能带来更好的性能&#xff0c;更多的数据…

网工内推 | 金融业,网络管理岗,CCIE优先,最高30k

01 国民养老保险 招聘岗位&#xff1a;网络管理岗 职责描述&#xff1a; 1.负责公司整体网络架构规划、设计&#xff0c;制定整体网络方案&#xff0c;完善网络拓扑架构标准化文档&#xff0c;对公司现有网络进行梳理及持续优化。 2.负责公司网络系统建设&#xff0c;建立具备…

macos 12 支持机型 macOS Monterey 更新中新增的功能

macOS Monterey 能让你以全然一新的方式与他人沟通联络、共享内容和挥洒创意。尽享 FaceTime 通话新增的音频和视频增强功能&#xff0c;包括空间音频和人像模式。通过功能强大的效率类工具&#xff08;例如专注模式、快速备忘录和 Safari 浏览器中的标签页组&#xff09;完成更…

9月,1Panel开源面板项目收到了这些评论

2023年9月27日&#xff0c;1Panel开源面板项目&#xff08;https://github.com/1Panel-dev&#xff09;发布了题为《当1Panel开源项目被社区平台推荐后&#xff0c;我们收获了这些评论》的社区评论合集&#xff0c;在该文章的评论区&#xff0c;很多社区用户跟帖发表了自己对1P…

【Java】Java 11 新特性概览

Java 11 新特性概览 1. Java 11 简介2. Java 11 新特性2.1 HTTP Client 标准化2.2 String 新增方法&#xff08;1&#xff09;str.isBlank() - 判断字符串是否为空&#xff08;2&#xff09;str.lines() - 返回由行终止符划分的字符串集合&#xff08;3&#xff09;str.repeat(…

C进阶-语言文件操作

本章重点&#xff1a; 什么是文件 文件名 文件类型 文件缓冲区 文件指针 文件的打开和关闭文件的顺序读写文件的随机读写文件结束的判定 1. 什么是文件 磁盘上的文件是文件。 但是在程序设计中&#xff0c;我们一般谈的文件有两种&#xff1a;程序文件、数据文件 1.1 程序文件…

安达发|制造企业生产排产现状和APS系统的解决方案

随着市场竞争的加剧&#xff0c;制造业企业面临着生产效率、成本控制和客户满意度等方面的巟大压力。在这种背景下&#xff0c;生产排产作为制造业的核心环节&#xff0c;对企业的生产经营具有重要意义。本文将针对制造业的生产排产现状进行分析&#xff0c;并提出相应的APS系统…

基于YOLOv5-7.0的PCB板缺陷检测

目录 参考引用一、数据集介绍二、环境配置三、构建训练数据集四、修改配置文件五、训练及tensorboard可视化六、效果测试七、遇到的BUG 参考引用 你的陈某某-基于YOLOv5的PCB板缺陷检测 一、数据集介绍 印刷电路板&#xff08;PCB&#xff09;瑕疵数据集。它是一个公共合成P…

有什么小程序可以下载视频号的视频?

​最近有一些朋友问我&#xff0c;【视频号下载助手】和【视频下载bot】小程序&#xff0c;有什么作用&#xff1f; 首先视频号下载助手是协助用户进行下载的&#xff0c;但由于下载要符合平台规定&#xff0c;我们就将视频下载助手与视频下载bot小程序想结合的模式&#xff0…