Deep Learning for drug repurposing:methods,datasets,and applications
综述读完,觉得少了点东西,自己写个DTI综述
Databases(包括但不限于文章中的)
DATABASE | DESCRIBE |
---|---|
BindingDB | 有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI) |
KEGG(Kyoto Encylopedia of Genes and Genomes) | 集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集, |
Pubchem | 化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等 |
CCLE | 对抗癌药物有用 |
ChemDB | 提供了化学结构和分子性质,还预测了分子3D结构 |
CTD(Comparative Toxicogenomics Database) | CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information |
DGIdb | 从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database |
DrugBank | 将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合 |
DrugCentral | 提供了active chemical entities and dug mode of action |
DTC(Drug Target Commons) | DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications |
DTP(Drug Target Profiler) | DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息 |
GCLIDA | 包含DTI for G-protein-coupled receptors(GPCRs) |
GtopDB | 包含已批准的药物和在调查中的化合物的定量生物活性数据 |
PathwayCommon | 包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物 |
PharmGKB | 包含临床以实和研究人员药物反应的遗传变异的综合数据 |
STITCH | 存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质 |
Supertarget | 用于分析DTI和药物副作用 |
BioSNAP | DTI |
HUMAN | DTI |
TTD(Therapeutic Target Database) | 提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息 |
AOPEDF | 从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。 |
上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没
数据集
dataset | contents | source |
---|---|---|
BindingDB | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
BioSNAP | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
HUMAN | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
Representation Learning
Sequence-based
Drug representations(对于分子化合物).
(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号。
(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。
© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.
此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。
Target representations.
(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码。
(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。
© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.
同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。
Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。
Network/graph-based representation learning
RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。
对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。
模型
药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。
Model | drug | target(pr) | architecture | task | year |
---|---|---|---|---|---|
Gao et al | Molecular graph | Amino acid sequence | GCN,LSTM,two-way attention mechanism | DTI | 2018 |
DeepAffintiy | SMILES | Protein SPS(Structural property sequence) | RNN,CNN,Attention Mechanism | DTA | 2019 |
GraphDTA | Molecular graph | Protein sequence | GCN,DNN | DTA | 2019 |
DeepConv-DTI | Fingerprint | Protein sequence | CNN,DNN | DTI | 2019 |
MCPINN | ECFP&Mol2Vec&SMILES | Amino acid sequence & ProtVec | DNN | CPI | 2019 |
Tsubaki et al. | Molecular graph | Amino acid sequence | GCN,CNN,attention mechanism | CPI | 2019 |
Trimodel | Biomedical knoledge graphs about drug and target | - | Knowledge Graph Embedding | DTI | 2019 |
Rifaioglu et al. | SMILES | Protein sequence structural,evolutionary and physicochemical properties | CNN | DTA | 2020 |
MolTrans | SMILES->子结构序列 | Protein sequence ->子结构序列 | encoder: transformer ,fusion: CNN | DTI | 2020 |
TransformerCPI | Molecular graph | Protein sequence | (CONV1D+ GLU)Transformer encoder,transformer decoder | CPI | 2020 |
Yang li et al. | |||||
DeepDTI | |||||
ImageMol | |||||
MultiDTI (没啥用) | SMILES | Protein sequence(还有drug、target、disease、side effect 之间的,直接编码) | CNN,MLP | DTI | 2021 |
MOVE | SMILES | Protein sequence(还有drug、target、disease、side effect ,后两个直接编码) | CNN,GCN,MLP,图attention,contrastive learning | DTI | 2022 |
CLOOME | SMILES->Morgan fingerprints | Molecular image | descriptor-based fully-connected networks,resnet,continuous modern Hopfield networks,contrastive learning | drug discovery | 2022 ICLR workshop |
DrugBAN | Molecular graph | Protein sequence | GCN,CNN,biattention | DTI | 2023 |
Drug encoder
cnn不写了
MODEL | INPUT |
---|---|
GCN | Molecular graph |
Graph Transformer | 没找到 |
Transformer encoder | sequence(one-hot 向量,MolTrans) |
Protein encoder
cnn不写了
方法1:k-gram(k=3)+word2vec(transformerCPI)
MODEL | INPUT |
---|---|
CNN | Protein sequence |
Protein Bert | Protein sequence |
ESM | Protein sequence |