作者简介: 刘源 北京大学化学与分子工程学院/力文所
零.导读
近几年,蛋白质结构预测领域连续取得重大突破。首先是【AlphaFold】,在可以充分利用共进化信息结合深度神经网络生成空间约束条件并降低相空间的搜索,极大地帮助了蛋白质的结构建模,颠覆了往年需要结合复杂结构采样的算法,现在直接使用能量最小化即可得到预测的结构。随后,在2019年底,David Baker团队发表了【trRosetta】,其集合深度学习的诸多进展,并与Rosetta建模软件结合,使得预测蛋白结构的门槛大大降低(在笔记本折叠蛋白) 。在【trRosetta】的文章中, 作者还发现了一个有趣的现象,对于很多之前设计的de novo design 的人工蛋白,在没有同源序列(MSA)的情况下,只凭单序列输入就可以预测到比较可靠的结构。
这个结果似乎暗示,trRosetta模型不但学到了用共进化信息来推断空间约束,也学会了某些序列和结构之间的本质关联。于是作者提出了两个问题,
- 这些信息能否用来生成与训练集序列不相关的新蛋白?
- 对于给定的空间约束(结构),模型能否通过反向传播优化序列,也就是实现“design”的操作?
大佬David Baker 和 Sergey Ovchinnikov (Rising Star)最近在bioRxiv一起上线了两篇文章,肯定了这两个回答。在这两篇文章中,同时也发现了一些令人意外的现象,让我们一起来看看吧。
一、引理
蛋白质的结构和序列之间的关系,可以用条件概率和贝叶斯公式表示
P(seq|struct) = P(seq,struct)/P(struct) = P(struct|seq)*P(seq)/P(struct)
其中P(struct|seq),给定序列求结构,是trRosetta解决的结构预测问题。P(seq)是序列与结构无关的概率,也就是天然蛋白中氨基酸的频率。P(struct)是与蛋白序列无关的结构信息,即背景。在文章中,作者对背景噪音单独训练了一个神经网络,神经网络的结构和trRosetta相似,但输入的MSA为只与蛋白长度相关的随机噪音。
二、不给结构随便幻想
有了这个简单的概率模型,作者的第一个问题就是如何让神经网络去幻想(hallucination)新的蛋白结构,我们能否随机在P(seq,struct)中找一个位置然后找到它附近的极值?这就要说到深度学习中的一个有趣的问题DeepDream(深梦)。
DeepDream
这个方法反映的是一个神经网络是怎么“认识”世界的,当你训练好一个图像分类器后,输入一张图片,deepdream就在图中拼命寻找符合它所认识物体的pattern并加以放大,最后得到一张非常魔幻的照片。
这也正是幻想蛋白希望得到的效果,如果给定一个条序列(比如一条随机序列)时, trRosetta预测出来的空间约束往往是缺乏特征的。如果能够像deepdream一样在里面寻找像是理想蛋白的特征并加以强化,最后我们就能得到一个具有良好蛋白性质的空间约束及其序列。
MCMC序列优化
具体的做法也相当简单,首先给定一条初始序列(可以完全随机也可以是有意义的序列),接着将一个大小为Lx64的随机噪音输入背景网络,得到背景的空间约束。然后从初始序列出发,通过trRosetta网络预测其空间约束,最初的约束可能分布相当弥散(因为序列不具有明显结构特征),计算这个分布与背景分布的差异,如果两者的KL散度越大,则说明得到的空间约束越像一个蛋白。作者在序列中随机引入点突变,用Metroplis判据来不断优化(增大)KL散度。
通过一个模拟退火的过程,随着温度不断降低,作者得到了与噪音相比,KL散度非常大的序列。从D图中可以看到,天然蛋白,从头设计的蛋白,以及模拟退火后的幻象蛋白序列与背景空间约束分布的散度依次提高。40000步后幻想序列具有非常高的KL散度。
再比较一下序列,会发现幻想出来的序列距离天然蛋白非常远,但结构上却在PDB中具有很好的匹配程度。也就是说,幻想出来的蛋白是序列独特但结构老套的蛋白。当然这并不奇怪,PDB库早已经被报道覆盖了蛋白质大部分可能折叠的空间,更何况trRosetta就是基于PDB结构进行的训练。最终作者展示了多种全新幻想出来的序列,形成覆盖全α全β或两者混合的各类拓扑结构。
三、给定结构幻想序列
蛋白质设计的目的则在于优化P(seq|struct)。而在第二章节的MCMC采样过程中,每次随机突变一个氨基酸的方法效率较低,并没有用到深度学习的关键技术“反向传播”。这个方法可以使我们根据目标分布与预测分布的差异,有目的地批量更新氨基酸,为了用连续变量编码氨基酸,文中采用PSSM来描述一条序列。这套方法被称为trDesign。
当我们有了一个目标结构的时候,就可以计算目标的空间约束(Target-P),用一条随机序列通过trRosetta可以得到预测空间约束Q,P和Q的散度,就是我们希望最小化(使得Q接近P)的损失函数(注意在幻想时是希望最大化和背景的差异)。
这个流程可以快速的对输入序列进行优化,只需几十步的迭代就可以得到收敛的结果。通过对Foldit玩家设计的几千个蛋白进行分析,传统的势能面打分Pnear可以得到与实验较好的关联性,但开销十分巨大。而trDesign的损失函数与Pnear有很好的关联性,且对实验验证成功的例子有更好的区分度。说明trDesign所优化的是整个能量面,即降低目标构象的能量同时提高其它构象的能量。但缺点在于对native结构的优化不如Rosetta深入,这主要是受限于模型的精度。
那么究竟trRosetta学到了什么呢?作者列出了三点:
- 一些距离的双峰分布说明模型学到了全局或二级结构的不同堆叠状态;
- 相对天然蛋白或De novo设计的蛋白而言,trRosetta设计的蛋白具有更理想的局域序列-结构关系(图E);
- trDesign设计的蛋白具有更少的表面输水侧链(图F),尽管它们对全局最小影响可能不大,但如果表面过多的疏水侧链,这可能使得蛋白质会偏向折叠成使这些氨基酸包埋的亚稳态结构。
总结
作者开发的这套方法不但可以进行快速的蛋白质设计,而且其效果是可以优化整个能量面的形状,如果与适合在局部深挖的Rosetta FastDesign相结合,可以达到远超原来蛋白设计流程的效果。
随心所欲
刘源:有人可能会说,你能想象出新蛋白又有什么用?能反向传播又如何,不就比design快点么?于是重点来了,由于这两个方法都是基于trRosetta模型来的,所以如果合理的设计损失函数,人们就可以做到固定一部分想要的结构,然后幻想生成剩下的部分!这也就是深度学习里常见的inpaint问题,挡住一部分图片,自动补全新图。而且最终得到的设计是非常接近ideal的稳定蛋白,具有很多好的性质,从这个角度trDesign可以看成是一种滤镜,给输入的蛋白“磨皮”,让它更加完美(稳定易折叠,优化能量面)。最近的一个例子是Baker组设计的一个IL-2的mimic从头设计蛋白【neo-2】,在文章中作者使用了大量复杂的算法生成主链构象再进行设计,而理论上这个操作可以在新的框架中一步到位。相信这套方案在成熟之后会在设计抗体、疫苗等重大问题上带来突破性进展。
皮卡车:这两篇文章的idea是如何出来的,和Sergey的一些经历和想法分不开。Sergey 主要做的是共进化相关的工作,GREMLIN为主,也可以叫markov random field, potts model,self-supervised learning等。通过对MSA的分析来得到蛋白质的接触图谱。然后遇到的一个问题是,目前的结果是通过分析单层神经网络的参数获得的。如果层数增加,物理意义不明晰,就在模型中丢失了接触图谱的解释性,于是他搞了一套基于梯度的分析方法,Seqsal,把输入当变量,就可以从多层神经网络中,得到蛋白质的接触图谱,于是各种模型,autoencoder,VAE等都可以通过这个方法来重新解析。在后来,trRosetta有了,是一种从序列到结构的分析方法。那么倒过来把序列当变量,通过调整序列来降低模型的损失函数,同时又把序列推离序列噪音,deep network hallucination就出来了。在损失函数中增加一项给定的结构约束,trDesign就出来了。在有了这些想法之后,能够在几个月时间内快速推进算法和实验。除了baker实验室,其他地方也难找了。
尝鲜
现在已经提供了源代码和例子,感兴趣的同志可以去尝试 https://github.com/gjoni/trDesign。 安装和使用都比较简单,但目前的例子也比较简单,更复杂的功能有待诸君开发。
引文
- Deep network hallucination:I Anishchenko, TM Chidyausiku, S Ovchinnikov, SJ Pellock, D Baker. De novo protein design by deep network hallucination. (2020) bioRxiv, doi:10.1101/2020.07.22.211482
- trDesign:C Norn, B Wicky, D Juergens, S Liu, D Kim, B Koepnick, I Anishchenko, Foldit Players, D Baker, S Ovchinnikov. Protein sequence design by explicit energy landscape optimization. (2020) bioRxiv, doi:10.1101/2020.07.23.218917
- AlphaFold:A.W., Evans, R., Jumper, J. et al. Improved protein structure prediction using potentials from deep learning. Nature 577, 706–710 (2020).
- trRosetta: Jianyi Yang, Ivan Anishchenko, Hahnbeom Park, Zhenling Peng, Sergey Ovchinnikov, and David Baker PNAS January 21, 2020 117 (3) 1496-1503
- neo-2:Silva, D., Yu, S., Ulge, U.Y. et al. De novo design of potent and selective mimics of IL-2 and IL-15. Nature 565, 186–191 (2019). https://doi.org/10.1038/s41586-018-0830-7