Ancestral Sequence Reconstruction Meets Machine Learning: Ene Reductase Thermostabilization Yields Enzymes with Improved Reactivity Profiles
祖先序列重建结合机器学习:酶还原酶热稳定化产生具有改进反应性特征的酶
摘要
烯还原酶(EREDs)是一类催化 C═C 键不对称还原的酶,在药物化合物的大规模合成中具有潜在应用价值。然而,由于它们在工艺条件下通常不稳定,其作为生物催化剂的应用受到限制。先前的研究通过祖先序列重建(ASR)这一生物信息学方法解决了这一问题。ASR 基于一组同源序列预测进化祖先序列,从而找到稳定化的 EREDs。在本研究中,我们尝试应用 ASR 设计酶库,并利用机器学习预测最稳定的酶库变体。
我们生成了一个基于 ASR 预测中不确定性定位残基的 ERED 酶库。利用酶库中部分筛选数据建立了一个机器学习模型,该模型能够准确预测具有改进热稳定性的变体。筛选出的最稳定化酶在工艺模拟条件下,面对一组底物时,其性能优于野生型和祖先母本酶。
我们展望,ASR 与机器学习的结合方法可以推广到其他类别的酶,从而促进高质量工业生物催化剂的开发。
引言
生物催化反应在制药小分子的大规模生产中具有重要价值。(1−4) 酶能够促进高效、稳定且具有对映选择性的反应,同时提供一种可持续的替代方案,取代基于贵金属的催化剂。许多酶催化平台已被用于工业规模的合成,包括转氨酶、(5) 水解酶、(6) 和氧化酶。(7,8) 例如,工程化的还原氨化酶成功实现了一种关键中间体(用于 JAK1 抑制剂 abrocitinib)的商业化生产。(9) 然而,还有许多潜在有用的酶家族尚待探索。其中一种生物催化剂类别是烯还原酶(EREDs),它们通过一种由还原黄素单核苷酸辅因子介导的反式特异性氢负离子转移,催化 C═C 键的不对称还原。(10−12)
EREDs 能够还原具有药物特性的低分子化合物,(13) 但由于在工艺条件下容易失活,因此难以用于制备规模的应用。(12) 工艺条件(如高温、有机共溶剂的存在和高底物负荷(>20 g/L 底物))可能会对酶的稳定性造成挑战。
一种新兴的生成稳定酶的技术是 祖先序列重建(ASR),这是一种基于同源序列集合预测进化祖先的生物信息学方法。(14−16) ASR 生成的酶通常具有改进的生物催化特性,例如增强的热稳定性、(17−19) 溶剂耐受性、(18,20) 和底物多样性。(15,21−23) ASR 已被应用于生成稳定化的 EREDs,为我们当前的研究奠定了基础。(24)
在先前的研究中,EBP1(一种来自 Candida albicans 的 IIb 类旧黄酶 (OYE)),(25−27) 被用作参考序列,用于生成一组野生型(WT)和祖先 ERED 的系统发育模型。研究发现,这些祖先 ERED 在显著稳定化的同时,能够对两种含环戊烯酮的底物保持较高的催化活性。其中表现最好的祖先酶之一是 ER120。这种酶被预测为 EBP1 的直接祖先(序列相似性为 95%),表现出 Tm 提高 +10 °C 的稳定性改进,并在产物 S-1b 的转化率上提高了 16%,且具有很高的对映选择性(90% 对映体过量 (ee),见方案 1)。
方案 1:ERED 催化的 1a 还原反应方案 像 ER120 这样的祖先酶是工程化的理想起点,因为它们的稳定性得到改善,更能耐受突变,从而促进酶的工程化过程。(28,29) 在工艺规模上应用的酶必须在严格的条件下运行。通常,在制造过程中需要生成以吨计的材料,因此需要高底物浓度以确保高生产率。同时,必须尽量减少酶的浓度,以促进高效的反应后处理和下游加工。与许多酶一样,ERED 在这些高强度条件下往往无法正常工作。开发能够可靠生成稳定 ERED 的新方法将有助于增强其作为工业生物催化剂的应用。
尽管与 EBP1 相比,ER120 已经实现了稳定性增强,但我们希望研究是否可能进一步提高其稳定性,以及这种稳定性对酶在工艺条件下功能的影响。
在本研究中,我们利用 ASR 引导工程工作,旨在改进 ER120 的变体,使其可应用于工艺规模。我们基于先前报道的方法设计了一种组合变体库,该方法利用生物信息学数据来稳定蛋白质。(28,30) 酶库针对大规模序列空间,以捕捉多种突变组合的效果,但由于序列空间过大,无法对所有变体进行实验测试,因此采用机器学习在计算机中预测整个酶库的热稳定性和活性。机器学习是一种有效的方法,可通过最少的实验识别出有益的突变组合。(31−33)
我们利用部分酶库的筛选数据构建了一个机器学习模型,该模型能够准确预测具有改进热稳定性的 ER120 变体。在模拟工艺条件下,最稳定化的酶 ER218 性能优于 EBP1 和 ER120,表明其是制药小分子生产的强有力候选酶。
结果与讨论
ASR 提供了热稳定突变的有用组合
ASR 被用来识别可优化 ER120 热稳定性的突变。我们专注于改善热稳定性,因为它通常与其他操作稳定性特性(如溶剂耐受性增强、半衰期延长以及对更高底物浓度的耐受性)相关。(28,34−37) 我们采用了一种名为 祖先组合文库定向进化 (CLADE) 的策略,该策略此前已被用于识别细胞色素 P450 酶的稳定突变。(28,30)
这一策略利用 ASR 的输出选择可以提高热稳定性的诱变位点。ASR 为每种祖先蛋白生成最可能的序列,并提供蛋白序列中每个位置氨基酸类型的概率分布(图 1A)。(38) CLADE 利用这种概率的不确定性来创建组合文库。选择概率不确定性最高的序列位置进行诱变(图 1B)。目标突变位置的数量基于约 100,000 个变体的组合文库规模来选择。在这些位点,CLADE 将最可能的氨基酸替换为第二可能的氨基酸。例如,CLADE 中不确定性最高的位点是 347,该位置氨基酸为赖氨酸的可能性为 36%;不确定性最低的位点是 303,含有苯丙氨酸的可能性为 74%。
这些 CLADE 位点被映射到 ER120 的同源模型上,发现这些位点主要分布在蛋白表面(见补充图 S1)。
图1. ER120 CLADE 点突变的活性和热稳定性
(A) ER120 各位置氨基酸不确定性分布的代表部分。选择不确定性最高的位置进行诱变。(B) CLADE 位点表。(C) CLADE 点突变酶的酶活性,通过气相色谱 (GC) 测量相对转化率(底物 1a 到产物 S-1b)。反应条件为 ERED 酶裂解液 (0.3% v/v)、1a (25 g/L, 164 mM)、β-NADP+ (1 g/L)、葡萄糖脱氢酶 (GDH, 1 g/L)、d-(+)-葡萄糖 (50 g/L)、DMSO (5% v/v) 和 100 mM 磷酸钾缓冲液 (pH 7.0),30 °C 反应 24 小时。垂直线表示 ER120 的活性,在相同条件下的转化率为 37%。相比 ER120,点突变酶的活性差异无统计学意义。(D) CLADE 点突变酶的热稳定性,通过差示扫描荧光法 (DSF) 测定熔点温度 (Tm)。垂直线表示 ER120 的 Tm(53 °C)。误差条表示 3 次测量的标准误差。星号表示点突变酶与 ER120 的热稳定性存在统计学显著差异 (p ≤ 0.05)。
验证酶库设计的有效性
为验证酶库设计的可行性,我们确认了每个单独突变的功能。创建组合酶库而不了解每个残基的可变性存在风险。如果某一突变对酶的特性产生负面影响,酶库中的大部分可能会失去功能。因此,我们为每个 CLADE 突变生成了 ER120 的点突变酶,并在 Escherichia coli 中表达每种酶。通过差示扫描荧光法 (DSF) 测定每种点突变的 Tm(图 1D)。大多数 CLADE 突变提高了热稳定性;17 个点突变中有 11 个的热稳定性优于 ER120。仅有一个点突变 ER120-I20V 的 Tm 低于母酶。
引入稳定性突变有时可能会削弱酶的活性,(39,40) 因此我们确认了引入点突变后活性是否保持。通过监测模型底物 1a 到 S-1b 的还原反应来验证催化活性(方案 1)。EBP1 和 ER120 选择性生成 S-1b(90% 对映体过量 (ee)),(24) 因此转化率仅计算该产物的转化值。通过气相色谱 (GC) 评估相对转化率(图 1C)。点突变酶与 ER120 的活性相似,表明这些突变不仅提高了稳定性,还未影响所需的酶活性。
为确认 CLADE 突变是优化 ER120 的最合适选择,我们将其与通过一致性突变法选出的另一组点突变进行了比较。一致性突变法是一种常用的蛋白稳定性工程方法,目标是序列比对中常见的残基,并已被应用于多种酶家族的稳定性改进。(41) 我们利用先前用于生成 ER120 的序列比对选择诱变位点。(24) 如果 ER120 的残基与一致性序列中最常见的氨基酸不同,则选择该位点进行突变。(40,42) 我们为与比对差异最显著的前 17 个位点生成了 ER120 点突变酶。大多数突变(17 个中有 9 个)对热稳定性无影响,其 Tm 与 ER120 相同(图 S2B)。Mann–Whitney U 检验表明,CLADE 和一致性突变的热稳定性分布之间无显著差异。然而,一致性点突变酶的活性总体低于 CLADE 点突变酶(图 S2A),且 Mann–Whitney U 检验表明两组突变的活性分布存在显著差异(图 S3)。
如果用一致性突变构建组合酶库,则预计酶库的大部分会表现出较低的酶活性。CLADE 和一致性突变的比较确认了 CLADE 组合酶库最适合在不影响酶催化活性的情况下提高 ER120 的热稳定性。尽管 CLADE 方法在 ER120 的突变中比一致性突变更成功,但我们仅测试了一个酶系统,因此仍需进一步研究以确定 CLADE 是否比一致性突变法更普遍适用于优选突变。
机器学习预测热稳定酶
基于 ER120 ASR 预测的不确定性生成了一个组合酶库(217 或 131,072 个变体)。对 479 个独特变体(约占酶库总量的 0.35%)的热稳定性和活性进行了测定。ER120 的 407 个氨基酸中,每个库成员含有 1 到 14 个突变,突变的中位数为 8(图 S4)。如图 2 所示,测定了酶库每个成员的活性和热稳定性。
总体而言,酶库的功能性较高,CLADE 组合酶库的酶活性与 ER120 相当。没有发现突变组合能显著提高酶活性。然而,CLADE 酶库中的大多数变体显著提高了热稳定性:70% 的变体的热稳定性优于 ER120。最热稳定的酶 ΔTm 提高了 +4 °C。
图2. CLADE 组合酶库的特性分析
(A) 酶活性分布:通过气相色谱 (GC) 测定底物 1a 到产物 S-1b 的相对转化率。反应条件为 ERED 酶裂解液 (0.3% v/v)、1a (25 g/L, 164 mM)、β-NADP+ (1 g/L)、GDH (1 g/L)、d-(+)-葡萄糖 (50 g/L)、DMSO (5% v/v)、100 mM 磷酸钾缓冲液 (pH 7.0),30 °C 反应 24 小时。活性测定结果以相对 ER120 的 S-1b 转化倍数变化进行归一化。(B) 热稳定性分布:通过单次差示扫描荧光法 (DSF) 测定每个变体的熔点温度。数据以相对于 ER120 控制组的 Tm 差值 (ΔTm) 归一化。
尽管鉴定出了许多稳定化酶,但初步筛选集中并未捕获最佳的突变组合,因为筛选的酶库仅占总酶库的一小部分。由于 DSF 是一种中通量检测方法,实验上评估完整酶库(217 或 131,072 个变体)并不实际。因此,我们转向 监督式机器学习,以预测未筛选 ER120 变体的热稳定性。
机器学习在酶工程中的应用
机器学习正成为酶工程中的热门工具。(32,43,44) 酶的氨基酸序列直接编码其下游功能,因此可以识别出改善目标酶特性的序列模式。具体而言,监督学习利用已知的一部分序列–活性关系预测未知但相关序列的酶学特性或适应性。(32) 只需要部分序列的适应性数据,即可对整个酶库进行可靠且准确的预测。
我们的机器学习酶工程方法分为两个步骤(图3A)。
-
使用已筛选变体的热稳定性数据作为输入,比较多种机器学习回归模型。许多模型能够准确预测训练数据的适应性(表 S1)。其中,预测最准确的回归模型是线性支持向量回归 (linear SVR)。(45)
-
利用此模型对未筛选变体的热稳定性进行高精度预测(使用 "leave-one-out" 交叉验证的排名相关系数 ρ = 0.83)。
我们进一步尝试生成一个模型来预测能够提高催化活性的突变(图 S6)。然而,未观察到 ASR 不确定性突变与相对转化率之间的相关性,这可能表明 CLADE 突变对酶活性影响较小。
图3. 通过机器学习进行计算筛选
(A) 酶工程中应用的机器学习工作流程概览:将筛选数据用作输入来构建回归模型。通过“留一交叉验证” (LOOCV) 测试模型性能。选择性能最佳的模型来预测所有可能序列的适应性。预测出具有最佳特性的变体随后通过实验确认。
(B) 线性支持向量回归 (SVR) 模型热稳定性的 LOOCV 结果:显示线性拟合曲线及其 95% 置信区间,同时标注 Spearman 排名相关系数 (ρ) 和线性相关系数 (r)。
(C) 机器学习预测的适应性排名:从预测适应性最高到最低排序。最高预测酶为 ER218。预测 ΔTm ≥ 3 °C 的酶(位于灰框中)被标记为顶级预测。
(D) 顶级预测变体的突变率(ΔTm ≥ 3 °C):共分析了 10,357 个变体(占酶库总数的 8%)。
机器学习预测的热稳定性分析
我们应用最终确定的线性 SVR 模型预测所有可能 CLADE 突变组合(217 或 131,072 种可能序列)的 ΔTm。预测结果从最高到最低热稳定性排名(图 3C)。预测排名最高的变体相对于 ER120 的 ΔTm 为 +5 °C。这些变体均未在初始筛选面板中出现,而是通过机器学习识别出来的。
尽管机器学习模型无法解释为何某些突变能提高稳定性,而其他突变则无法,我们通过分析顶级预测酶变体的突变来探索哪些位点可能对提高热稳定性重要。对预测 ΔTm ≥ +3 °C 的酶计算酶库中每个位点的突变率(图 3D)。预测认为 G118K、S140A 和 D153N 对提高稳定性至关重要;超过 80% 的顶级预测酶包含这三个突变。而其他突变如 I20V、T104A 和 A85T 被认为对稳定性有害。
机器学习预测的实验验证
预测 ΔTm 最高的酶命名为 ER218,它包含 9 个 CLADE 突变,预测 ΔTm = +5 °C(图 4A)。ER218 包括所有预测对提高稳定性重要的残基(如 G118K、S140A 和 D153N),但不包含预测对稳定性有负面影响的突变(如 I20V、T104A 和 A85T)。
一些单点突变(如 T21S、H189R 和 Y321F)被发现对热稳定性有益,但未出现在 ER218 中。这些突变在顶级预测变体中代表性较低,可能表明单个突变可能提高稳定性,但与其他突变组合时效果不显著。此外,一个单点突变对热稳定性无明显影响的位点 Q17L 出现在 ER218 中。该突变在约 60% 的顶级预测变体中被包含,若无机器学习辅助,可能不会被选为突变目标。
为验证机器学习预测,ER218 在 E. coli 中表达,并通过 DSF 测定其 Tm(图 4B 和图 S7)。ER218 的 Tm 为 58 °C,与机器学习预测的 ΔTm +5 °C 完全一致。
图4. ER218 及其点突变的热稳定性和活性
(A) ER218 相对于 ER120 的突变。 (B) 通过差示扫描荧光法 (DSF) 测量的 EBP1、ER120 和 ER218 的熔点温度 (Tm)。误差条表示 12 次测量的标准误差。 (C) ER218 点突变酶的热稳定性和酶活性:通过底物 1a 到产物 S-1b 的还原反应评估酶活性。反应条件为 ERED 酶裂解液 (0.3% v/v)、1a (25 g/L, 164 mM)、β-NADP+ (1 g/L)、GDH (1 g/L)、d-(+)-葡萄糖 (50 g/L)、DMSO (5% v/v)、100 mM 磷酸钾缓冲液 (pH 7.0),30 °C 反应 24 小时。点突变酶按 Tm 从高到低排序,随后按 S-1b 的相对转化率排序。Tm 通过 DSF 测量,柱状条的颜色表示突变体的 Tm,ER218 的 Tm 为 58 °C。误差条表示 3 次测量的标准误差。星号表示点突变酶与 ER218 的活性具有统计学显著差异 (p ≤ 0.05)。热稳定性差异的统计显著性见图 S8。
点突变分析
我们生成了一组 ER218 的点突变,作为顶级预测变体的代表。每个位点生成一个点突变,将氨基酸残基突变为第二可能的残基或恢复为 ER120 的原始残基。每个点突变在 E. coli 中表达,并测量其热稳定性(图 4C 和图 S8)。大多数点突变与 ER218 的稳定性相似,但没有一个显示出更高的稳定性,表明机器学习准确预测了 ER218 是最稳定的酶。一些突变会降低稳定性,例如移除 G118K、S140A 或 D153N,这表明这三个突变的组合对提高稳定性至关重要。这组突变组合仅通过机器学习得以识别,初始筛选库过小,无法发现这种突变组合。最不稳定的酶是 ER218-I20V,这与 ER120 点突变及顶级预测变体的突变分析结果一致。点突变的预测热稳定性与测量值相关性良好(Pearson R = 0.64,图 S9)。
酶活性评估
通过底物 1a 的还原反应评估顶级预测变体的酶活性(图 4C)。ER218 的活性与 ER120 相当,ER218 点突变的活性也与 ER218 类似。如 ER120 点突变所示,突变对活性未显著降低。少数点突变如 ER218-A13S 活性略高于 ER218,但当酶以无细胞冻干粉形式加入反应时(图 S10),这一趋势未持续,因此未进一步测试。
热稳定化提高了多种底物的活性
开发 ER218 的工程策略仅基于生物信息数据提高酶的稳定性。我们假设对酶的有益改进不依赖于特定反应。通常,酶工程的重点是改善特定底物的活性,这种优化的生物催化剂适用于特定工艺,但可能无法应用于未来项目。相比之下,本研究中的工程策略通过模型底物 1a 在开发过程中持续评估酶活性,因此我们决定使用扩展底物组测试改进的酶。
测试了已知可被野生型酶 EBP1 还原的一组底物的还原反应(表 1)。(26) 为更准确反映工业反应条件,酶以无细胞冻干粉形式使用。确认了冻干酶对底物 1a 的反应性。与裂解液中反应相比,冻干酶的反应性趋势有所不同。在裂解液中,ER218 的活性与 ER120 相当;但使用冻干酶时,ER218 的转化率最高。这种 ER120 与 ER218 之间的差异似乎并非由表达水平差异引起(图 S11),尽管 EBP1 的表达较低可能导致活性较低。我们推测,ER218 冻干形式的活性提高可能是由于其稳定化更能抵抗冻干粉制备过程中的处理。
Table 1. Substrate Scope of Thermostabilized EREDsa
a反应在 100 mM 磷酸钾缓冲液(pH 7.0)中于 30 °C 反应 24 小时,底物浓度为 25 g/L。酶以冻干无细胞裂解液形式提供。通过加入辅因子循环系统(包含 β-NADP+ (1 g/L)、GDH (1 g/L) 和 d-(+)-葡萄糖 (50 g/L))生成 NADPH 还原当量。产物的绝对构型未确定。转化率为 3 次实验的平均值。
对其他测试底物也观察到了类似的趋势(表 1)。底物 2a 的结构与 1a 相似,但环的尺寸更大。底物尺寸影响了反应性,所有酶的总转化率均降低。然而,ER218 仍然表现最佳。底物 3a 比 1a 和 2a 更小,且缺少第二个有助于结合和反应性的吸电子基团 (EWG)。(46,47) 缺失第二个 EWG 对所有酶的反应性均有显著影响,需要更高的酶负载量才能催化 3a 的还原反应。尽管如此,ER218 仍是表现最佳的酶,趋势与其他底物一致。
最后测试的两种底物 4a 和 5a 与模型底物 1a 的结构明显不同。这两种底物均能被所有酶还原,其中 ER218 的转化率最高。ER218 在底物组中的改进反应性突显了稳定化酶作为工业生物催化剂的应用价值。
稳定化酶提高高底物负载反应的产量
为进一步评估 ERED 变体在工业反应条件下的性能,我们在 pH 控制条件下进行了反应。葡萄糖脱氢酶(GDH)被添加到 ERED 催化反应中以循环利用 NADPH 辅因子。(48) 此反应会生成葡萄糖酸,因此在工业规模上需要进行 pH 控制。我们推测 pH 控制可以使反应持续更长时间,因此在放大反应条件下选择了较低的酶负载量。
在这些反应中选择了底物 4a,因为其在小规模实验中的转化率中等,我们预计通过控制反应 pH 可观察到更高的产量(图 5A)。
图5. 工艺相关条件下的大规模 ERED 还原反应
(A) ERED 催化 4a 到 S-4b 和 R-4b 的还原反应方案。 (B)
反应在标准底物负载(25 g/L, 164 mM)条件下运行,并在不同时间点取样。通过气相色谱 (GC) 测量 S-4b 和 R-4b 的转化率。 (C) 在不同反应条件下 24 小时内测得的 S-4b 和 R-4b 转化率。每组反应所使用的酶负载量列于图表上方。
反应表现分析
在标准底物负载条件下(25 g/L, 164 mM),随着反应进行对转化率进行了监测(图 5B)。结果显示 ER120 和 ER218 都能在 24 小时内完全还原 4a,但 ER218 的反应速度比 ER120 更快。通过 GC 测得的转化率与维持 pH 所需添加的碱量相关性良好(图 S12)。ER218 的改进稳定性使其成为更高效的酶,因为其反应速率明显快于另外两种酶。
为了验证 ER218 改善的热稳定性是否带来更好的底物负载耐受性,测试了更高的底物浓度(35)。结果表明,ER218 在 50 g/L 底物浓度下仍能有效还原 4a,而 ER120 和 ER043 的转化率则显著降低(图 5C 和图 S13、S14)。最后,在更接近工业理想条件的情况下,将相对酶负载量从 2 wt% 降低到 1 wt%。再次观察到,只有 ER218 能实现接近定量的转化率,这表明其稳定性的改进直接提升了酶的性能(图 5C)。
结论
在本研究中,我们结合 祖先序列重建 (ASR) 和机器学习引导 ERED 的工程设计,使其能够应用于工艺规模。基于 ASR 预测的不确定性生成了酶的组合库,并利用筛选数据构建机器学习模型,成功预测了热稳定的 ERED 变体。ER218 的稳定性提高显著改善了其在工艺相关条件下对多种底物的催化活性。我们预计 ER218 对小分子生产具有广泛适用性。结果强调了热稳定性工程在工业生物催化中的重要性,并预计我们的方法可作为稳定化多种酶的通用策略。
材料与方法
详见支持信息。
支持信息
支持信息可免费下载,链接:https://pubs.acs.org/doi/10.1021/acscatal.4c03738。 内容包括:
-
ER120 同源模型中标注的 CLADE 和一致性文库位点;
-
一致性点突变的活性和热稳定性测量结果;
-
机器学习模型和预测的相关性及统计分析;
-
酶活性机器学习模型;
-
ERED 的熔解曲线;
-
ER120 和 ER218 的热力学稳定性;
-
表达 ERED 的无细胞冻干粉的特性分析;
-
ERED 催化反应的滴定曲线;
-
代表性色谱图;
-
材料与方法的总结及描述(PDF)。