蛋白质是生命的基础,是生命功能的主要执行者,其结构与功能由氨基酸序列所决定。蛋白质设计是指对新蛋白质分子进行人为的合理设计,旨在设计新的活性,行为或目的,并增进对蛋白质功能的基本了解。可以从头开始设计蛋白质(从头设计),也可以通过对已知蛋白质结构及其序列进行计算得出的变体进行设计(称为蛋白质重新设计)。合理的蛋白质设计方法可以预测蛋白质序列,并将其折叠成特定的结构。然后可以通过诸如肽合成,定点诱变或人工基因合成等方法对这些预测序列进行实验验证。
蛋白质设计的一个主要目标就是设计能够产生新的功能的非天然的蛋白质。因为细胞体内的蛋白质大多都是通过和其他蛋白质产生相互作用来执行其功能的,所以衡量蛋白质设计的一个成功标准就是检查其设计的新的蛋白质与其他蛋白质的亲和力的强度。这里,一个重要的门槛就是天然蛋白质的亲和力的强度。目前,大多数计算机设计的蛋白质都是模拟天然蛋白的相互作用,但是很难达到和超越天然蛋白质的互作强度。
最近,华盛顿大学医学院和霍华德休斯医学研究所的David Baker教授团队利用人工智能(AI)驱动的生物技术来应对这些挑战。他们使用人工智能软件创建了蛋白质分子,这些蛋白质分子以极高的亲和力和特异性与各种具有挑战性的生物标志物(包括人类激素)结合。值得注意的是,该实验室在计算机生成的生物分子与其目标之间实现了有史以来最高的相互作用强度。
该研究以 “De novo design of high-affinity binders of bioactive helical peptides”为题,于 2023 年 12 月 18 日发布在著名国际杂志《Nature》上。
肽结合蛋白质设计的新挑战
设计的蛋白质可以在大肠杆菌中轻松高产、低成本地生产,并且具有非常高的稳定性,然而,以高亲和力和特异性结合螺旋肽的蛋白的设计仍然是一个突出的挑战。肽结合蛋白的设计具有挑战性,原因有两个。
第一,设计用于结合折叠蛋白的蛋白质,例如皮摩尔亲和力超稳定的 50-65 残基微型结合剂,具有适合结合刚性凹目标的形状,但不适合支撑延伸的肽。螺旋肽可以很容易地结合形成卷曲的线圈组件,并且这一原理已被用来设计钙调蛋白肽的结合剂,但由于大量暴露的疏水表面,卷曲螺旋亚基通常在没有结合伴侣的情况下自缔合,从而大大降低了有效的靶标结合亲和力。
第二,肽具有较少的相互作用残基,并且在分离时通常部分或完全非结构化。因此,将肽构建成特定构象可能会产生熵成本,这会损害有利的缔合自由能。在设计与延伸的 β 链结构和聚脯氨酸 II 构象结合的肽方面已经取得了进展,使用蛋白质侧链与肽主链相互作用;然而,由于 α 螺旋肽内部有大量主链-主链氢键,这种相互作用不能在 α 螺旋肽上发生。
图一:在凹槽支架中结合螺旋肽。 (a) 螺旋肽靶标:甲状旁腺激素 (PTH)、胰高血糖素 (GCG)、神经肽 Y (NPY)、促胰液素 (SCT) 以及 Bid 和 Bim 的凋亡相关 BH3 结构域。 (b) 螺旋结合问题的“开槽”结构解决方案。 (c) 改变超螺旋和螺旋距离以适应不同目标的凹槽支架采样的参数方法。
RFdiffusion:新的解决方案
Baker 实验室成员 Susana Vazquez-Torres、Preetham Venkatesh 和 Phil Leung 领导的团队,正着手创建能够与胰高血糖素、神经肽 Y、甲状旁腺激素和其他螺旋肽靶标结合的蛋白质。该团队提出了一种使用 RFdiffusion(一种用于创建新蛋白质形状的生成模型)与序列设计工具 ProteinMPNN 结合的新方法。
图二: 结合螺旋肽的设计新策略。 (a) 修复活页夹优化:使用 RFjoint 修复重新设计参数化生成的活页夹设计以扩展绑定界面。 左:方法示意图。 中:原始参数支架(灰色)、具有扩展接口的修复设计(粉色)和 PTH 目标(紫色)。 右:TAMRA 标记靶标的荧光偏振测量表明与 PTH 的结合为 6.1 nM,与脱靶 PTH 相关肽 (PTHrp) 的结合仅较弱。 (b) 穿线靶序列和重新设计:将肽穿线到伪重复蛋白支架上。 左:示意图。 右:基于重复蛋白支架(灰色)和SCT靶标(橙色)的SCT设计模型。 TAMRA 标记靶标的荧光偏振测量表明与 SCT 的结合为 3.95 nM,与 GCG 的结合为 12 nM。 (c) 具有深层网络幻觉的 Binder 设计。 左上:示意图。 右图是使用 AlphaFold 对结合物序列进行蒙特卡罗优化超过 5000 个步骤而得到的设计结合物,仅提供目标序列(而非结构)。 幻觉活页夹(灰色); 目标 Bid 肽(蓝色)。 等温滴定量热法测量(最右侧)表明与 Bid 的结合为 25 nM。 下:从随机序列(左)到最终序列(右)的幻觉轨迹; 蛋白质围绕肽折叠,螺旋含量从第 0 步到第 1000 步增加。
研究人员通过扩展 RFdiffusion 从而使绑定器设计能够适应更灵活的目标,并通过连续的噪声和去噪(部分扩散)来细化输入结构模型,皮摩尔亲和力结合剂可以通过其他方法生成的细化设计来生成螺旋肽靶标,或者完全从随机噪声分布开始。
目前为止,这些是针对任何蛋白质或小分子靶标的最高亲和力设计的结合蛋白,通过计算直接生成,无需任何实验优化。RFdiffusion 设计能够通过质谱法富集并随后检测甲状旁腺激素和胰高血糖素,并构建基于生物发光的蛋白质生物传感器。设计构象可变靶点的结合剂以及通过部分扩散优化天然和设计蛋白质的能力应该具有广泛的用途。
「我们正在见证蛋白质设计的激动人心的时代,先进的人工智能工具正在加速蛋白质活性的改善。这一突破将重新定义生物技术的前景。」 Vazquez-Torres 指出。
论文第一作者Susana Vazquez-Torres博士
该团队与哥本哈根大学的 Joseph Rogers 实验室和华盛顿大学医学院的 Andrew Hoofnagle 实验室合作,进行了实验室测试以验证他们的生物设计方法。质谱法用于检测与人血清中低浓度肽结合的设计蛋白质,从而证明了灵敏且准确的疾病诊断的潜力。此外,尽管高温等恶劣条件,这些蛋白质仍保留了其靶标结合能力,这是实际应用的一个关键属性。
许多肽类激素(peptide hormone),例如甲状旁腺激素(PTH)、神经肽Y(NPY)、胰高血糖素(GCG)、胰高血糖素样肽-1(GLP-1)、分泌素(SCT)等,在与受体结合时会采用α螺旋结构,在人类生物学中发挥着关键作用,是临床护理和生物医学研究中已确认的生物标志物。对它们进行灵敏性和特异性的定量检测对于疾病的诊断和药物开发具有重要意义,想要实现这一点,目前还依赖于需要大量资源生成的抗体,但这难以产生高亲和力,并且通常具有较差的稳定性和可重复性。
为了进一步展示该方法的潜力,研究人员将高亲和力甲状旁腺激素结合剂集成到生物传感器系统中,并在含有目标激素的样品中实现了生物发光信号增加 21 倍。这种与诊断设备的集成展示了人工智能生成蛋白质的直接实际应用。
图三:设计的粘合剂在传感和检测中的应用。 (a) 用于 PTH 检测的蛋白质生物传感器。 左图:移植 PTH lucCage 生物传感器的示意图,描绘了笼子和闩锁(左,米色)、钥匙(右,米色)、半荧光素酶(白色为非活性,蓝色为活性)、PTH 结合物(红色)和 PTH 肽 目标(紫色)。 右:以相同配色方案显示的设计模型。 (b) PTH 滴定导致荧光素酶发光线性增加。 (c) 在 PTH 极限浓度下对 PTH 生物传感器的评估表明检测限为 10 nM(参见方法)。 (d-f) 设计的 PTH 粘合剂能够从复杂的混合物中稳健地回收 PTH。 (d) 富集实验示意图。 (e) SVSEIQLMHNLGK(PTH 的 N 末端胰蛋白酶肽)的 LC-MS/MS 色谱图; LC-MS/MS 检测检测到的不同肽片段具有不同的颜色。 (f) 每种样品类型三次重复测量的平均色谱峰面积。 误差线代表标准偏差。
总结
这项研究报告了人工智能(AI)驱动的蛋白质从头设计的最新进展,从头设计和生成具有皮摩尔亲和力的螺旋肽靶标的结合蛋白,实现了直接通过计算生成、无需任何实验优化的最高亲和力。
在这项最新研究中,研究团队提出了一种使用RFdiffusion的新方法,将其与团队之前开发的蛋白质序列设计工具ProteinMPNN相结合,从而实现比以往任何时候都更高效地创建功能性蛋白质。
通过以新的方式组合这些工具,研究团队利用有限的靶标信息(例如肽的氨基酸序列)生成了其结合蛋白。这种“按需构建”(build to fit)的方法的广泛影响表明,生物技术进入了一个新时代,人工智能生成的蛋白质可以检测与人类健康和环境相关的复杂分子。
论文通讯作者 David Baker 教授表示,生成具有如此高亲和力和特异性的新型蛋白质的能力,从新的疾病治疗到先进的诊断,打开了一个新世界。
参考文献
(1)https://www.nature.com/articles/s41586-023-06953-1
(2)https://phys.org/news/2023-12-ai-generates-proteins-exceptional-strengths.html