文章名字是Recent Progress in the Discovery and Design of Antimicrobial Peptides Using Traditional Machine Learning and Deep Learning,24年发表
摘要
由于传统抗生素的滥用和多重耐药微生物的增加,抗菌药物耐药性已成为一个全球性的重大健康问题。抗菌肽(AMPs)是一类天然存在的多肽,因其对宿主的低毒性、广泛的生物活性(包括抗菌、抗真菌、抗病毒和抗寄生虫活性)以及巨大的治疗潜力(如抗癌、抗炎等),有望成为下一代抗生素。最重要的是,抗菌肽通过多种作用机制破坏细胞膜来杀死细菌,而不是针对单一分子或途径,这使得细菌难以产生耐药性。然而,用于发现和设计新抗菌肽的实验方法非常昂贵且耗时。近年来,人们对使用计算机模拟方法进行药物发现产生了浓厚兴趣。虽然有几篇论文总结了计算抗菌肽预测方法,但没有一篇专注于深度学习方法。在这篇综述中,我们旨在调查深度学习方法在抗菌肽预测方面的最新进展。首先,介绍抗菌肽的生物学背景,然后阐述用于表示肽序列特征的各种特征编码方法。我们解释最流行的深度学习技术,并重点介绍基于这些技术的近期分类抗菌肽和设计新型肽序列的作品。最后,讨论抗菌肽预测的局限性和挑战。
一、引言
1. 抗菌肽的发现与分类
抗菌肽(AMPs)是一类具有广谱生物活性的天然多肽,首次于1922年由亚历山大·弗莱明发现。它们广泛存在于动植物、昆虫和微生物中,通过直接杀灭病原体或调节宿主免疫系统来保护宿主免受微生物感染。AMP可基于结构、来源和功能多种方式进行分类,其中按二级结构可分为:α螺旋、β折叠、α-β混合和无规则结构。例如,α螺旋型抗菌肽具有线性结构且富含阳离子和疏水性氨基酸,对细胞膜表现出高亲和力;β折叠结构通常由二硫键稳定,具有较强的结构稳定性。这种多样性使得AMP在抗菌、抗真菌、抗病毒等方面显示出广泛的治疗潜力。
2. 抗菌肽的作用机制
AMP的作用机制主要分为三类:膜破坏、代谢干扰和免疫调节。AMP通过其阳离子特性选择性地与细菌膜上的负电荷成分结合,从而实现对细菌膜的破坏。膜破坏机制包括三种模型:桶状孔模型(AMP形成束状插入膜中)、环状模型(诱导膜曲率形成孔隙)和地毯模型(覆盖膜表面并导致膜解体)。此外,某些AMP会跨膜进入细胞内,与DNA、RNA或蛋白质合成系统等关键代谢过程结合,进而抑制细菌的代谢活动。
3. 抗菌肽在生物医学和工业领域的应用
AMP在多个领域展示了重要应用潜力:
生物医药领域:AMP被视为传统抗生素的替代品,具有多重模式杀菌且产生耐药性的几率低。已应用于局部感染的治疗,如早期发现的革兰阴性菌素Gramicidin,可用于治疗眼、鼻及喉咙的浅表感染。
农业与畜牧业:AMP作为抗生素和农药的替代品,有效减少抗生素滥用对环境的影响。通过基因改造表达AMP的植物和动物,能增强其对病原菌的抗性,例如转基因猪表现出对Glaesserella parasuis感染的较高抗性。
食品工业:某些AMP,如乳链菌素,被广泛用于食品防腐,尤其是在乳制品和肉制品中延长食品保质期。AMP还可用于食品包装中,借助缓释技术实现对食品病原体的抑制作用。
4. 抗菌肽发展的主要挑战
虽然AMP在多领域展现出巨大潜力,但在生产、稳定性和毒性方面依然面临挑战。首先,高生产成本限制了其广泛应用,其次AMP在宿主体内易被蛋白酶降解,导致活性降低。此外,某些AMP在高浓度下会对宿主细胞产生毒性,影响其治疗用途。尽管细菌产生AMP耐药性的几率较低,但某些细菌通过膜极性调控和外膜蛋白等机制,仍然能够在一定程度上抵抗AMP的杀菌效果。
二、AMP发现和设计-机器学习工作流
这部分详细介绍了在抗菌肽(AMP)发现和设计中的机器学习工作流,重点涵盖了特征编码方法、传统机器学习应用、深度学习方法、AMP设计优化及其局限性等方面,具体内容如下:
抗菌肽的发现与设计通常依赖于机器学习和深度学习技术的工作流,其流程包括:特征编码、模型构建、活性预测、序列筛选及实验验证。这种工作流能够通过对大规模肽序列和结构数据的学习,自动化地识别潜在抗菌活性的肽序列,大幅缩短传统实验的时间和成本。计算方法使得序列筛选范围不再局限于已知肽,可以通过突变或从头生成大量新序列,极大地提升了抗菌肽设计的可能性。
三、特征编码方法
特征编码是机器学习流程中的关键步骤,将抗菌肽序列数据转化为可处理的数值数据,可以分为肽水平特征和氨基酸水平特征:
- 肽水平特征包括基于序列和结构的特征编码:
- 序列特征编码方法如独热编码(通过二进制向量表示氨基酸顺序)和氨基酸组成(统计氨基酸的出现频率)。独热编码保留了氨基酸顺序信息,广泛应用于DL模型。
- 结构特征编码方法如蛋白质二级结构、定量结构-活性关系(QSAR)、距离分布等。这些方法用于揭示肽在结构上的独特性和活性之间的关系。
- 氨基酸水平特征主要通过氨基酸序列本身以及其理化性质(如疏水性、极性、pH值)来实现。使用自然语言处理(NLP)技术如Word2Vec和BERT,可以将每个氨基酸转化为具有上下文意义的向量表示,进而有效改善模型的分类与预测性能。
四、传统机器学习预测抗菌肽
传统机器学习方法在AMP发现中发挥了重要作用,常用的算法包括支持向量机(SVM)、随机森林(RF)、k近邻(kNN)、判别分析(DA)等:
支持向量机:通过核函数将输入空间转换为高维特征空间,在处理非线性数据和抗噪能力方面表现优异,适合用于抗菌肽的分类预测。
随机森林:由多个决策树组成的集成算法,抗过拟合能力强,并且通过子采样处理大规模数据集,特别适合抗菌肽多类别数据集的处理。
k近邻算法:基于邻近样本的类别进行分类,能够快速处理小规模数据集,对于抗菌肽数据较少的情况下具有较好的效果。 传统机器学习方法在早期的AMP研究中帮助识别了大量具有抗菌活性的肽序列,并为DL模型的发展奠定了基础。
五、深度学习方法在抗菌肽预测中的应用
深度学习方法显著提升了抗菌肽设计的准确性和效率,常见的模型包括卷积神经网络(CNN)、循环神经网络(RNN)及其混合模型:
CNN模型:CNN能够处理高维数据并提取局部信息,尤其适用于编码后的肽序列,且通过多层卷积和池化操作有效减少数据维度。例如,CNN常用于短序列抗菌肽预测,可识别不同长度的序列特征,并提升预测精度。
RNN及其变种(LSTM、BiLSTM、GRU):RNN特别适合处理序列数据,通过其循环结构保留序列中前后信息。双向长短期记忆网络(BiLSTM)则可在序列的双向传播中捕获更多的特征细节,用于预测抗菌活性。
混合模型:CNN-RNN组合模型结合了CNN的特征提取能力和RNN的序列依赖性处理能力,通过两种网络的协同来大幅提升抗菌肽的预测效果。
注意力机制:在抗菌肽的研究中引入了多头注意力机制和层次注意力机制,通过聚焦于序列中关键区域,从而提高预测的准确性。例如,多头注意力机制能够在抗菌肽的生成和预测过程中自动权衡不同特征,增强模型的灵活性。
六、AMP设计优化
这部分讨论通过优化方法进行抗菌肽设计的策略,主要包括以下几个方面。
基于已知肽的优化:抗菌肽设计通常从已知的有效肽入手,利用计算模型进行抗菌活性的预测和优化。研究者可以通过突变分析,逐步调整肽的氨基酸组成,以提高其抗菌性能。此外,优化过程还会考虑肽的二级和三级结构,因为这些结构特征直接影响肽的生物活性和稳定性。
遗传算法:遗传算法在AMP设计中的应用通过模拟自然选择,能有效探索和优化肽序列空间。这种方法将候选肽视作“个体”,通过交叉、变异和选择等操作迭代生成更具活性的肽。研究者可以通过设定适应度函数,量化肽的抗菌活性和其他特性,进一步筛选出表现最优的肽。
多目标优化:在AMP设计中,研究者通常需要平衡多个目标,例如抗菌活性、细胞毒性和稳定性等。采用非支配排序遗传算法(NSGA-II)等多目标优化方法,可以在这些目标之间找到最佳的折中方案。这种方法能够帮助研究者设计出既有效又安全的抗菌肽,减少潜在的副作用。
模型整合:结合传统的机器学习模型与深度学习模型,在AMP设计优化中能够显著提升效率。例如,使用支持向量机预测肽的活性,同时利用深度学习模型生成候选肽。这种整合策略能快速筛选出高潜力肽,并通过体外实验验证进一步提高模型的准确性和可靠性。
七、AMP从头设计
这部分专注于AMP从头设计策略,旨在通过全新的序列生成和设计方法,推动抗菌肽的创新与发现:
基于深度学习的设计:从头设计过程通常采用递归神经网络(RNN)和生成对抗网络(GAN)等深度学习模型,生成新的肽序列。这些模型通过学习大量已知抗菌肽的特征,能够预测氨基酸的排列组合,从而生成具有潜在抗菌活性的序列。例如,通过循环神经网络,模型可以在输入一个初始序列后,逐步生成下一个氨基酸,直到形成完整的肽链。
语言模型的应用:借鉴自然语言处理中的方法,将肽序列视作一种语言。这种思路使得研究者能够使用预训练的语言模型(如BERT、GPT)学习肽的结构与功能特征。通过这种方式,模型可以捕捉肽序列中的复杂上下文信息,增强生成的新肽的抗菌潜力。
实验验证与反馈:生成的新肽序列需要经过体外活性测试,以验证其抗菌性能。实验结果将为模型的进一步优化提供反馈,帮助研究者调整模型参数,提升设计的准确性。这种反馈机制使得从头设计不仅依赖于计算结果,还结合了实验数据,确保生成肽的实际应用效果。
序列空间探索:从头设计方法能够大规模探索肽的序列空间,生成数以千计的新肽候选,从而丰富AMP库,为药物开发提供更多的选择。这种探索过程能够发掘出许多传统方法难以发现的新型抗菌肽,推动抗菌药物的创新。
八、局限性和需要解决的问题
最后文章详细讨论了抗菌肽(AMP)研究和设计过程中面临的局限性和挑战,主要涉及数据不足、模型解释性、实验验证及标准化问题等方面,具体内容如下:
数据量不足:AMP数据的获取和标注成本高昂,因此现有的抗菌肽数据库较小且数据质量参差不齐。深度学习模型通常依赖大量的训练数据,小数据集可能导致模型在预测时产生过拟合,限制了模型的推广性。数据稀缺还意味着很难获得广泛适用的肽序列和结构特征,这限制了对肽多样性和结构复杂性的探索。因此,亟需建立更全面、更准确的抗菌肽数据库,以支持更高效的预测和设计。
模型解释性不足:尽管深度学习模型在AMP预测中表现优异,但其结果往往是“黑箱”式的,缺乏可解释性。这意味着研究者很难理解模型的决策过程,进而无法确定模型预测中的重要特征或机制。这种解释性不足的情况对于生物学和医学应用尤为不利,理解抗菌肽的作用机制对于药物开发和个性化治疗具有重要意义。因此,未来需要发展具有更高解释性的模型,例如通过加入注意力机制等方法来提高模型对特征的识别和解读能力。
实验验证的挑战:尽管计算方法能够生成大量候选肽序列,但实验验证过程费时费力且成本高昂。很多预测的AMP在实际实验中未能表现出预期的活性,限制了模型在实际应用中的可行性。此外,体内和体外实验环境的差异也使得某些AMP在体内表现出不稳定的效果。因此,优化实验验证流程,如开发快速筛选和小规模测试平台,以降低实验成本,提升验证效率,变得非常重要。
标准化问题:在抗菌肽研究中,不同研究使用的特征编码、模型架构和评估指标存在较大差异,导致研究结果的可复现性较差。不同的特征提取方法和模型参数会直接影响预测结果的精度和一致性,限制了研究间的对比性。解决这些问题需要建立统一的标准化流程,包括推荐的特征编码方法、性能评估标准和模型参数设定,确保不同研究的结果可以相互验证和对比。
抗性发展和稳定性问题:尽管AMP在多重耐药性细菌治疗中具有巨大潜力,但一些细菌可能会通过调控膜极性、利用外膜蛋白等机制发展出对AMP的耐药性,这仍然是一个潜在的威胁。同时,AMP在体内环境中的稳定性往往较差,易受蛋白酶降解,这在药物开发中构成了一大难题。因此,提高AMP的耐受性和稳定性,延长其在宿主体内的活性时间,是未来研究的一个重要方向。