今天来精读2023年10月发在《Nature》上的一篇新闻:AlphaFold touted as next big thing for drug discovery — but is it? (nature.com)https://www.nature.com/articles/d41586-023-02984-w
Questions remain about whether the AI tool for predicting protein structures can really shake up the pharmaceutical industry.
关于预测蛋白质结构的人工智能工具是否真的能撼动制药行业的问题仍然存在。
原文概览:
这篇文章讨论了使用人工智能模型(如AlphaFold和RoseTTAFold)在药物发现领域的应用。文章提到了这些模型在预测蛋白质结构方面的优异表现,以及在预测小分子与蛋白质结合方面的挑战。一些科学家指出,尽管这些模型提供了大量数据,但其质量尚存疑。同时,一些公司如Recursion在分享预测结果时缺乏透明度,引发了一些争议。然而,一些公司表示已分享了验证数据,并认为实时分享技术里程碑可以促进药物发现,并更多地展示行业的方法。此外,文章还提到了竞赛如CASP对促进药物发现和揭示行业方法的重要性。总体来说,人们正努力利用这些模型来推动药物发现,但仍有许多挑战需要克服。
这篇文章提到预测模型用于药物发现面临的挑战包括:
- AlphaFold和RoseTTAFold等模型在确定小分子对接时表现不佳。
- 预测模型与实验确定的蛋白质结构相比,对接到AlphaFold模型的准确性要低得多。
- 模型中氨基酸侧链方向的微小变化与实验结构之间的差距可能导致准确性下降。
- 当药物结合时,它们可以轻微改变蛋白质的形状,而AlphaFold结构并未反映这一点。
为了应对上述的挑战,文章提出了以下建议:
- 行业应该能够进行验证,并分享数据。
- 实时分享技术里程碑可以促进药物发现,并更多地展示行业的方法。
- 竞赛如CASP对促进药物发现和揭示行业方法具有重要性。
- 为了取得进展,验证实验室内的数据是必要的。
原文翻译
Alphafold被吹捧为药物发现的福音-但它是吗?
在AlphaFold(AlphaFold是由Google Deepmind公司在2020年发布的一个蛋白结构预测工具)能够高精度地预测蛋白三维结构的能力得到证明后,化学家们对使用这个开源的人工智能程序进行又快又省地【more quickly and cheaply】发现药物的前景感到兴奋。大多数药物通过与蛋白质上的不同部位结合来发挥作用,而AlphaFold能够预测科学家们先前知之甚少【previously knew little about】的蛋白质结构。
2023年8月,总部位于Salt Lake City, Utah的生物科技公司 “Recursion”宣布,他们已经计算出36亿种潜在化合物如何与15000多种人类蛋白【这些蛋白结构由AlphaFold预测】结合。为了完成这项大规模计算,Recursion使用了他们自己的人工智能工具 “MatchMaker”,该工具将预测结构上的结合口袋与 “Enamine Real Space” 数据库中形状适合的小分子或配体进行“匹配”。
“很多人已经预测了分子如何与蛋白质结合”, Recursion的联合创始人兼首席执行官Chris Gibson说,“这么多预测是相当前所未见的【pretty unprecedented】。”
但并非所有人对AlphaFold改变药物发现持乐观态度,至少目前还不是。在Recursion公布消息的前一天,加利福尼亚州斯坦福大学的科学家团队在《eLife》杂志上发表的一篇论文中指出,AlphaFold在预测蛋白结构方面的出色表现尚未转化为可靠的配体结合线索。
斯坦福大学生物物理学家、该论文的共同作者Masha Karelina表示:“像AlphaFold这样的模型在[蛋白质]结构方面表现得非常出色,但我们需要考虑一下如何将它们用于药物发现。”
其他接受《Nature》杂志采访的人认为,这种努力提供了大量令人印象深刻的数据,但他们对其质量尚不确定。像Recursion这样的生物技术公告通常不附带验证数据——经实验室实验验证的结果【confirmation from laboratory experiments that a model has accurately predicted binding】。计算出的相互作用还基于预测而非实验确定的蛋白质结构,这些结构可能缺乏药物开发者需要的原子级分辨率,无法准确指出最强结合可能发生的位置。此外,预测的相互作用数量庞大(Recursion预测了2.8千万亿次相互作用),即使有少量假阳性“命中”【false-positive ‘hits’】,也会导致昂贵的延误,科学家们将浪费宝贵时间尝试验证它们,加利福尼亚大学旧金山分校的制药化学家Brian Shoichet表示。
Shoichet表示,这带来了很多兴奋,但也引发了很多问题。
揭开难题
南加州大学计算生物学家Vsevolod Katritch表示,在药物发现中使用计算工具的理念是“让研究所有构成良药的参数变得更加简单、快速和便宜”。通过使用人工智能模型寻找线索,一家药物公司可能只需在实验室测试几百种化合物,而不是成千上万种。这可以大大降低成本,使一种化合物在数年内上市,而不是数十年。
“There's a huge amount of effort going on, but things are still just ramping up.”
“我们正在付出巨大的努力,但事情仍在加速发展。”
AlphaFold及类似的工具,比如RoseTTAFold(由华盛顿大学蛋白质设计研究所的研究人员领导的国际团队开发),承诺进一步颠覆制药行业,因为许多人类蛋白质的结构一直缺失,这使得为一些疾病寻找治疗方案变得困难。这些工具在预测蛋白三维结构方面变得如此出色,以至于去年存入数据库的2亿个蛋白质结构中,欧洲分子生物学实验室的欧洲生物信息学研究所认为35%的结构非常准确——与实验确定的结构一样好——另外45%足够准确以满足某些应用需求。
Karelina表示,从AlphaFold和RoseTTAFold的蛋白结构跳跃到配体结合的预测表面上看起来并不像是一件很大的事情。她最初认为,对预测蛋白结构进行小分子“对接”(通常涉及估计配体结合过程中释放的能量)的建模会很容易。但当她开始测试时,她发现与实验确定的蛋白质结构相比,对接到AlphaFold模型的准确性要低得多。Karelina仍然不完全确定原因,但她认为模型中氨基酸侧链方向的微小变化与实验结构之间的差距可能是造成这种差异的原因。当药物结合时,它们还可以轻微改变蛋白质的形状,而AlphaFold结构并未反映这一点。
总部位于伦敦的Charm Therapeutics的首席执行官兼联合创始人Laksh Aithani同意Karelina的发现,即RoseTTAFold和AlphaFold在确定小分子对接时表现不佳。
Charm正在尝试一种不同的评估蛋白质-药物结合的方法。该技术使用了一种名为DragonFold的人工智能工具,该工具是建立在RoseTTAFold基础上的。它模拟了蛋白质和配体结合在一起的3D形状,Aithani表示,这使Charm能够考虑到与配体结合时发生的蛋白质形状变化,并修改潜在药物以实现更紧密、更选择性的结合。Aithani表示,该工作还没有进行到足够深入的程度,无法透露太多细节,但他表示,这个项目已经引起了总部位于Lawrenceville, New Jersey的制药公司Bristol Myers Squibb的兴趣。
前方的道路
Shoichet表示,对于这些团队来说,挑战不在于设计一个能够确定分子结合程度的模型,而在于创建一个能够识别与人们所知甚少的蛋白紧密结合的化合物的系统。他表示,为了取得进展,实验验证是必要的。
麻省理工学院数学家Bonnie Berger表示,行业应该能够进行验证。然而,目前,如果行业在进行验证,他们并没有分享这些数据。
她说:“像Recursion这样的公司缺乏透明度,他们在没有充分分享其方法或结果的情况下进行预测。这对我和整个领域都是一个问题”。
Recursion回应称,他们已经在两项研究中分享了MatchMaker的验证数据。
Recursion发言人Ryan Kelly表示:“实时分享这些令人兴奋的技术是我们向社区和更广泛的大众分享我们对药物发现的思考方式。”
Berger表示,像AlphaFold这样的竞赛不仅有助于推动药物发现向前发展,还能更多地揭示行业的方法。AlphaFold在2020年赢得了两年一次的蛋白质结构预测评估(CASP)比赛的头条新闻,研究人员必须将他们的预测模型与一组已经实验确定但尚未公开发布结构的蛋白质进行比较。同样,人工智能工具对药物-蛋白质相互作用的结果可以与结合实验室结果进行比较。
Shoichet表示,“正在进行着大量工作”来利用AlphaFold等模型进行药物发现。但是,“事情仍在加速发展中”。