目录
1. SMILES字符串
2. 利用图马尔可夫神经网络(GMNN)来进行关联性预测
3. 图池化算法
4. 合成致死性(SL)预测
5. 蛋白质溶解度研究
6. 药物疾病关联预测(DAA)
7. tRNA-疾病关系预测
8.异构体功能预测
9. 蛋白质配体亲和力预测
10. InterProScan
痛苦地读论文。。。for 。。。。
持续更新中 :)
1. SMILES字符串
参考:
SMILES:一种简化的分子语言_smiles格式-CSDN博客
如何将化学分子SMILES字符串转化为Pytorch图数据结构——ESOL分子水溶性数据集解析_smiles string-CSDN博客
SMILES,全称是Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。
SMILES强大的一点就是存在一种唯一的SMILES,使用标准的SMILES,分子的名字和结构是同义的,在唯一的SMILES里面,这也是通用的,世界上任何使用SMILES命名分子的人都会选择完全相同的名字。
2. 利用图马尔可夫神经网络(GMNN)来进行关联性预测
例如:
采用图马尔可夫神经网络(GMNN)算法来预测未知的circRNA-疾病关联
论文:
GMNN2CD: identification of circRNA–disease associations based on variational inference and graph Markov neural networks
该论文摘要:通过对循环RNA(circRNAs)的特性和功能进行分析,人们意识到它们在疾病中发挥着关键作用。探索circRNAs与疾病之间的关系对于寻找疾病的病因病理和治疗具有深远意义。然而,仅通过生物技术学习新的关联是低效的。因此,作者提出了一种计算方法,GMNN2CD,它采用图马尔可夫神经网络(GMNN)算法来预测未知的circRNA-疾病关联。首先,利用已验证的关联,作者计算疾病的语义相似性和高斯交互特征核相似性(GIPs),以及circRNA的GIPs,然后将它们合并形成统一的描述符。接着,GMNN2CD采用融合特征变分映射自编码器来学习深层特征,并使用基于已知关联的标签传播映射自编码器来传播标签。基于变分推断,GMNN交替训练增强了GMNN2CD从低维表示中获取高效高维特征的能力。最后,对五个基准数据集进行的5倍交叉验证表明,GMNN2CD优于最先进的方法。此外,案例研究表明,GMNN2CD能够检测潜在的关联。
3. 图池化算法
参考:
GNN中的Graph Pooling-CSDN博客
相关论文:
Struct2GO: protein function prediction based on graph pooling algorithm and AlphaFold2 structure information
论文摘要:近年来,蛋白质结构预测取得了突破性进展,DeepMind团队的AlphaFold2模型将蛋白质结构预测的准确性提高到了原子水平。目前,基于深度学习的蛋白质功能预测模型通常从蛋白质序列中提取特征,并将其与蛋白质-蛋白质相互作用网络结合以获得良好的结果。然而,对于不在蛋白质-蛋白质相互作用网络中的新序列蛋白质,这种模型无法进行有效的预测。为了解决这个问题,本文提出了Struct2GO模型,它结合了蛋白质结构和序列数据,以提高蛋白质功能预测的精度和模型的普适性。作者提出了一种新的基于图池化算法和AlphaFold2结构信息的蛋白质功能预测器(protein function prediction based on graph pooling algorithm and AlphaFold2 structure information)。通过图表示学习获取蛋白质结构中的氨基酸残基嵌入,利用基于自注意机制的图池化算法获取整个图结构特征,并将其与从蛋白质语言模型中获取的序列特征进行融合。结果表明,与传统的基于蛋白质序列的功能预测模型相比,Struct2GO模型取得了更好的结果。Gene Ontology(GO)数据库是目前最常用的描述基因和蛋白质功能的数据库。本文利用蛋白质结构信息对GO数据库中的蛋白质功能进行预测,因而称为Struct2GO。作者通过图表示学习获得蛋白质结构中的氨基酸残基嵌入,利用基于自注意力机制的图池化算法获得整个图结构特征,并将其与蛋白质语言模型获得的序列特征融合。结果表明,与传统的基于蛋白质序列的功能预测模型相比,Struct2GO模型取得了更好的结果。具体而言,Struct2GO采用图池化模型从AlphaFold2预测的三维蛋白质结构中获取结构特征,并整合SeqVec提取的序列特征来训练蛋白质功能分类器。AlphaFold2预测的三维蛋白质结构数据为蛋白质功能预测提供了强有力的支持,可以有效提高模型的通用性。同时,与以往基于实验确定的蛋白质结构预测蛋白质功能的方法相比,AlphaFold2提供了足够的高分辨率结构信息,有效提高了预测的准确性。对比实验表明,Struct2Go达到了最先进的性能,从而最终证明了结构信息对蛋白质功能预测的有效支持。
注意: 在该论文当中,通过使用节点选择算法,该算法保留了输入图的一些节点和边,并生成一个新的子图作为下一层的输入。池化比率k确定将保留的节点数。
4. 合成致死性(SL)预测
相关论文:
SLGNN: synthetic lethality prediction in human cancers based on factor-aware knowledge graph neural network
论文摘要:合成致死性(SL)是一种基因相互作用形式,可以选择性地杀死癌细胞而不损害正常细胞。利用这种机制在靶向癌症治疗和抗癌药物开发领域日益受到欢迎。由于从实验室实验中识别SL相互作用的局限性,越来越多的研究小组正在设计计算预测方法,以引导潜在的SL配对的发现。尽管现有方法已经尝试捕捉SL相互作用的潜在机制,但仍需要开发更深入理解并尝试解释SL机制的方法。作者通过知识图的信息聚合获得基因的初始嵌入,这避免了对基因特征的手动设计,并且可以通过知识图中所代表的丰富信息生成特征。KGNN(Lin等人,2020年)使用了知识图卷积网络来自动生成实体嵌入,作者遵循这种信息聚合机制并进行了轻微修改。在基于消息传递机制的知识图卷积网络中,知识图中的关系起着重要作用,因为它们连接实体。知识图的一个显著特征是,相同的实体可以通过不同的关系连接,这些关系对应着不同的生物过程。因此,在信息聚合过程中需要区分不同的关系。在先前的工作中,KGNN使用了注意机制来模拟知识图关系作为衰减因子,以控制不同邻居的影响。为了提高模型的性能,作者采取了一种不同的方法,对不同的关系聚合消息的过程是显式的在这项工作中,作者提出了一种新颖的SL预测方法,称为SLGNN。该方法基于以下假设:SL相互作用是由不同的分子事件或生物过程引起的,作者将其定义为导致SL相互作用的SL相关因素。除了识别SL相互作用对,SLGNN还模拟了基因对不同SL相关因素的偏好,使结果对生物学家和临床医生更具解释性。SLGNN包括三个步骤:首先,作者将基因相关知识图中的关系组合建模为SL相关因素。接下来,作者通过知识图的显式信息聚合过程导出基因的初始嵌入。最后,作者通过一个SL图,利用已知的SL基因对构建,利用基于因素的信息聚合导出最终的基因嵌入。在这个阶段,采用了监督的端到端训练模型进行SL相互作用预测。根据实验结果,所提出的SLGNN模型优于所有当前最先进的SL预测方法,并提供了更好的可解释性
值得注意的是,该论文通过对知识图谱(KG)进行消息聚合来获得基因的初始嵌入,这避免了基因特征的手工设计,并且可以通过知识图谱中所表示的丰富信息生成特征。KGNN(Lin等人,2020年)使用了知识图谱卷积网络来自动生成实体嵌入。
参考:
KGNN:基于知识图谱的图神经网络预测药物与药物相互作用 - 知乎
5. 蛋白质溶解度研究
相关论文:
Enhancing Protein Solubility Prediction through Pre-trained Language Models and Graph Convolutional Neural Networks
论文摘要:蛋白质作为驱动多种生物过程的关键实体,其功能性归功于复杂的结构特征和性质。在蛋白质科学领域中,溶解度凸显为一个关键的决定因素。蛋白质的溶解度是其主要序列与周围环境条件之间复杂相互作用的结果。溶解度的重要性在蛋白化学、结构生物学、药学等领域得到体现,并在涉及溶液中蛋白质的研究中保持其核心意义。其影响涵盖生物技术、生物化学和医学应用,特别是在蛋白表达和纯化工作中。本研究介绍了创新的PPSol模型,旨在以卓越的效果预测蛋白质的溶解度。PPSol的方法论包括几个关键步骤。首先,它利用ESM2直接获取蛋白质接触图,这是蛋白质结构中的关键元素。这些接触图作为构建蛋白质图的基石,富含各种蛋白质特征作为节点属性。随后,这些蛋白质图被输入到图卷积神经网络中,有效地吸收蛋白质结构信息的复杂性。此外,PPSol利用ESM2生成蛋白质序列特征,这是理解序列特征的宝贵基础。这些特征经过全连接层的处理,以编码与序列相关的见解。这两条不同路径的结合,即结构和序列,导致了对蛋白质溶解度的强大预测。值得注意的是,PPSol的性能超越了其同行,突显了其在蛋白质溶解度预测领域的有效性。
注意:在这篇论文当中,使用利用ESM2直接获取蛋白质接触图。
ESM相当于是一个蛋白质预训练语言模型。
官网:
GitHub - facebookresearch/esm: Evolutionary Scale Modeling (esm): Pretrained language models for proteins
6. 药物疾病关联预测(DAA)
相关论文:
Hierarchical Semantic Augmentation Graph Neural Network for Drug-Disease Association Predictio
论文摘要:作为药物干预发现中的关键步骤,预测药物-疾病关联(DDA)探索了给定药物和疾病中的潜在治疗关联。由于药物和疾病中的各种联系包含高阶关系和复杂的治疗语义,图神经网络(GNNs)已被引入到DDA预测中并取得了巨大成功。然而,大多数先前的方法要求给定药物和疾病的节点具有平滑属性,在实际应用中很难满足。此外,基于GNN的模型在异质图中进行DDA预测时存在语义混淆的问题。这些挑战限制了模型在药物-疾病网络中发现治疗语义的有效性。为了解决DDA中的这些挑战,作者提出了一种名为HSAGNN的新型图神经网络模型,通过应用SGNN方法的语义引导思想,分层增强节点语义,包括拓扑嵌入学习、属性补全和语义引导聚合等三个关键步骤。HSAGNN首先学习拓扑嵌入,并采用学习到的拓扑关系通过注意力机制来完成缺失属性,从而使节点能够包含更丰富的邻居聚合信息。然后,模型在节点和语义层面上使用语义引导聚合来聚合邻居信息。在这里,HSAGNN将学习到的通用知识作为跳跃知识注入,以减轻语义混淆。作者使用各种基线在DDA任务中评估了模型,并进行了广泛的研究来探索模型的有效性。实验结果表明,HSAGNN能够通过增强语义发现潜在的治疗关联.
7. tRNA-疾病关系预测
PTDA-SWGCL: Predicting tRNA-Disease Associations using Supplementarily Weighted Graph Contrastive Learning
论文摘要:tRNA在蛋白质合成中扮演着关键角色,根据mRNA的指令将氨基酸运输到核糖体。这些分子在各种生物过程中起着重要调节作用,其失调与人类疾病密切相关。预测tRNA与疾病之间的关联对于发现有助于疾病预防、检测、预后、诊断和治疗的生物标志物至关重要。然而,实验验证这些关联是资源密集型的,需要开发强大的计算方法。在本研究中,作者提出了PTDA-SWGCL,这是一个用于预测潜在tRNA-疾病关联的新模型。PTDA-SWGCL整合了从高斯核相似性、序列相似性和语义相似性中得出的tRNA和疾病相似性信息。它使用这些相似性信息初始化tRNA和疾病嵌入,并通过在tRNA-疾病关联图上进行补充权重和图比较学习训练来对其进行改进。最终的关联对预测是通过tRNA和疾病嵌入的内积获得的。实验结果表明,PTDA-SWGCL优于最先进的方法。案例研究证实了其在预测tRNA-疾病关联方面的有效性。
8.异构体功能预测
相关论文:
Isoform Function Prediction Based on Heterogeneous Graph Attention Networks
论文摘要:
异构体指的是从同一基因转录而来、可以转译为具有不同结构和功能的蛋白质的不同mRNA分子。预测异构体功能是生物信息学中一个重要的课题,因为它可以为基因调控和生物过程的复杂机制提供宝贵的洞察力。传统上,基因功能标签是以基因本体(GO)术语标准化的。然而,用于预测异构体功能的传统方法在很大程度上受到异构体特定标签的缺失、稀疏注释以及大量GO术语的限制。为了解决这些问题,我们提出了HANIso,这是一种基于深度学习的异构体功能预测方法。HANIso利用预训练的蛋白质语言模型从蛋白质序列中提取特征。它还使用异构图注意力网络(HAN)集成了异构信息,如异构体序列特征、GO注释和异构体相互作用数据。这使得模型能够通过注意力机制学习不同信息来源的重要性及它们之间的语义关系。我们的方法可以在基因水平和异构体水平上预测功能标签。我们在两个物种数据集上进行实验,结果表明我们的方法在AUROC和AUPRC上均优于现有方法。HANIso有潜力克服传统方法的局限性,并提供对异构体功能更准确、更全面的理解
9. 蛋白质配体亲和力预测
相关论文:
Predicting Protein-Ligand Binding Affinity with Multi-Scale Structural Features
论文摘要:
在药物发现、基因调控和信号转导等领域,预测蛋白质-配体结合亲和力是非常重要的。基于蛋白质结构的DTA(药物-靶标亲和性)方法不仅可以有效弥补缺乏结合信息的问题,而且更符合真实生物过程。尽管基于结构的DTA方法取得了良好的性能,但现有方法仍然存在只考虑单尺度结构特征、忽略多尺度结构特征的问题。为了解决这一问题,我们提出了MSSDTA(多尺度结构表示药物-靶标亲和性预测),该方法通过整合蛋白质的表面节点特征和结构节点特征来提取多尺度蛋白质特征。同时,药物表示网络用于融合药物的二维分子结构特征和化学特征,以有效区分具有类似平面结构的药物分子。最后,亲和性预测网络用于生成蛋白质-配体结合亲和力分数。我们在PDBbind v.2019数据集上验证了该模型的性能。实验结果表明,所提出的方法取得了出色的性能。
10. InterProScan
官网:InterPro
相关论文
Protein function prediction using graph neural network with multi-type biological knowledge
论文摘要
蛋白质在多种生物学功能中起着关键作用,准确注释它们的功能对于理解细胞机制并开发复杂疾病的治疗方法至关重要。计算方法被提出作为替代繁琐实验方法的选择。然而,现有的基于网络的方法主要关注蛋白质-蛋白质相互作用(PPI)网络,而没有相互作用的蛋白质则被忽略了。为了解决这一局限性,我们提出了一种新颖的蛋白质功能预测深度学习框架,称为PFP-GMB,它结合了多种生物学知识,考虑了不在PPI网络中的蛋白质。PFP-GMB利用预训练的蛋白质语言模型来提取序列表示。此外,蛋白质相互作用和同源关系通过图神经网络和注意机制生成功能相关特征。最后,这些多类型特征被融合用于蛋白质功能预测。与八种最先进的方法相比,PFP-GMB在F-max和AUPR方面表现优异。消融研究进一步证实了将多种生物学知识整合到PFP-GMB中对于蛋白质功能预测的相关性和重要性。
在这篇论文当中:
使用了Gene Ontology (GO):蛋白质功能现在可由基因本体论(Gene Ontology,GO)标准化和组织,分为三个类别:分子功能(Molecular Function,MF)、生物过程(Biology Process,BP)和细胞组分(Cellular Component,CC)。截至2023年7月,GO数据库涵盖了庞大的收集,其中包括27,597个BP术语、11,236个MF术语和4,054个CC术语。此外,GO术语通过层次关系相互连接,包括“是一个”('is a')、“部分是”('part of')和“有部分”('has part')等。这些关系形成了一个有向无环图(Directed Acyclic Graph,DAG)结构,其中每个GO术语都可以看作是图中的一个节点。当一个GO术语被注释到一个蛋白质时,它的所有祖先也被注释到该蛋白质上,因为“子”GO术语比它们的“父”GO术语更具体。鉴于可能的功能注释数量众多和复杂的层次关系,蛋白质功能预测是一个具有挑战性的多标签分类问题
官网: Gene Ontology Resource
一文极速读懂 Gene Ontology (GO)数据库 - 知乎
通过InterProScan生成节点的功能特征,并使用图神经网络在PPI和同源网络中聚合邻近的特征。
官网:InterPro
InterProScan 是一个生物信息学工具,用于对蛋白质序列进行功能注释和结构预测。它通过比对已知的蛋白质特征、功能域和结构域数据库,如InterPro数据库,来识别输入蛋白质序列中的功能域、结构域和其他特征。InterProScan 结果包括注释信息,如已知功能域、家族、重复模式等,有助于理解蛋白质的功能和结构。这个工具通常用于在基因组学和蛋白质组学研究中对大量蛋白质进行功能注释和特征预测。
还使用了
EggNOG v5.0:A database of orthology relationships, functional annotation,
and gene evolutionary histories.
EggNOG Database | Orthology predictions and functional annnotaion
STRING:蛋白质相互作用(PPI)网络
STRING: functional protein association networks
11.Pre-trained protein models (PYPMS)
Pre-trained language models (PTLMs) have prevailed in natural language processing (NLP). Recently,some methods (Alley et al., 2019; Elnaggar et al., 2021; Rives et al., 2021) use PTLMs toencode protein sequences to predict biological functions, which are called pre-trained protein models(PTPMs).
使用PTLMs对蛋白质序列进行编码以预测生物功能,这些方法被称为预训练蛋白质模型
与自然语言相比,蛋白质结构有四个明显的层次(Kessel & Ben-Tal,2018)。第一级是由氨基酸组成的蛋白质序列,第二级指的是局部折叠结构(例如α螺旋和β折叠片),第三级描述了自然折叠的三维结构,第四级是由多个多肽组成的蛋白质多聚体。蛋白质可以专注于不同的结构水平以实现其特定功能,包括保留一段序列,展现整体的三维结构作为构象元素,甚至与其他蛋白质合作。因此,在预测蛋白质功能时,灵活利用多级结构信息至关重要