AlphaMissense:预测错义变异的致病性

错义变异或错义变体(missense variation或missense variants)是改变蛋白质氨基酸序列的遗传变异。致病性错义变异会严重破坏蛋白质功能,在目前观察到的400多万个错义变异中,只有2%在临床上被确定为致病或良性。对剩下的类型不明的变异进行分类是一个挑战。而机器学习可以利用生物数据中的模式来预测未经过注释的变异体的致病性。

来自:Accurate proteome-wide missense variant effect prediction with AlphaMissense
工程地址:https://github.com/google-deepmind/alphamissense

目录

  • 背景概述
    • 微调AlphaFold以实现变体效应预测
    • 跨多个临床基准提高致病性分类表现
  • 使用方式

背景概述

机器学习方法可以通过利用生物数据中的模式来预测未注释变异的致病性。机器学习方法遵循四大策略:

  • 第一类方法直接在人类整理的变体数据库上进行训练,从而利用先验知识来预测未标记变体的致病性。这种策略将继承人类的偏见。
  • 为了克服这种限制,第二类方法使用不依赖于人类分类的弱标签进行训练。在训练数据中,“良性”(benign)变体被定义为在人类或其他灵长类物种中经常观察到的变体。“致病”(pathogenic)类型近似于人类群体中未观察到的假定变异。这种方法是减轻潜在人类偏差的一个有前途的方向。然而,这种设置导致训练数据中包含许多错误标签。
  • 第三类方法避免直接在变异注释上进行训练,而是使用无监督方法,以氨基酸序列上下文为条件,对特定序列位置的氨基酸分布进行建模。最近,从蛋白质序列中学习氨基酸之间高阶依赖关系的深度学习模型(如自动编码器或语言模型)取得了很好的性能。在这类模型中,致病性被解释为参考序列与替代序列(alternate sequences)之间预测的对数似然的差异。虽然这些模型能有效捕捉自然进化序列的分布,但它们缺乏 AlphaFold(AF)对蛋白质结构的最新理解。
  • 第四种策略是利用蛋白质结构来推断致病性,因为变异后的结构为表示蛋白质的功能提供了关键信息。虽然这种策略提供了遗传变异的量化,但直接使用这种方法进行致病性预测在 ClinVar variants上的表现一般。

AF 最近的研究表明,使用蛋白质序列作为输入,可以大规模预测高度精确的蛋白质结构。这种蛋白质结构模型可作为理解蛋白质生物学的基础。虽然 AF 对输入序列变异不敏感,也不能准确预测点突变后的结构变化,但这里依然假设 AF 对多序列比对(MSA)和蛋白质结构的内在理解为直接预测错义变异致病性提供了一个高质量的起点。

微调AlphaFold以实现变体效应预测

AlphaMissense将氨基酸序列作为输入,并预测序列中给定位置上所有可能的单个氨基酸变化的致病性。AlphaMissense利用了AF的两个关键功能:其高度准确的蛋白质结构模型和从相关序列中学习进化约束的能力。因此,AlphaMissense的实现与AF的实现非常相似,但在架构上略有差异。值得注意的是,AlphaMissense并不预测突变氨基酸序列的结构变化,而是仅以标量值预测致病性。

AlphaMissense分两个阶段进行训练。在第一阶段,像AF一样训练网络,以通过预测MSA中随机位置处mask的氨基酸的身份来执行单链结构预测(AF预训练)以及蛋白质语言建模。作者对AF进行了一些小的结构修改,并增加了蛋白质语言建模的损失,同时仍然实现了与AF相当的结构预测性能。在预训练之后,通过计算参考氨基酸概率和替代氨基酸概率之间的对数似然比,mask语言建模head已经可以用于变体效应预测。

在第二阶段(图1A),该模型在人类蛋白质上进行微调,并为MSA第二行中的序列定义了额外的变体致病性分类目标(图1A)。对于训练集,将"良性"标签(benign)分配给在人类和灵长类动物群体中经常观察到的变体,将"致病"标签(pathogenic)分配给人类和灵长目动物群体中不存在的变体,如在PrimateAI中所做的(图1B)。一旦模型开始在验证集上过拟合,就停止训练模型(2526个ClinVar变体,每个基因的致病性和良性变体数量相等)。

训练集本质上是有噪声的,因为许多未观察到的变体可能是良性的,但与单独预训练相比,它提供了足够的学习信号来提高变体致病性得分。为了提高训练集的质量和大小,作者通过使用初步的AlphaMissense模型来过滤未观察到的预测可能是良性的变体,再使用自蒸馏。然后使用这个过滤的训练集重复微调阶段。
fig1a

  • 图1A:模型架构,模型输入包括参考蛋白序列(裁剪为固定长度 L L L=256个氨基酸), N N N个从参考序列采样的变体( N = 50 N=50 N=50),参考序列对应的MSAs( N a l l = 2048 N_{all}=2048 Nall=2048)。一次对一个变体进行推理。参考序列在 MSA 的第二行重复,所有采样的变异位置被mask。与AlphaFold一样,模型从参考序列中构建pair表示(一对氨基酸相互作用embedding的size为 K p a i r K_{pair} Kpair),以及MSA表示(每个氨基酸的embedding的size为 K m s a K_{msa} Kmsa)。MSA和pair表示由Evoformer处理(包含回收机制)。最后模型预测了参考序列的结构和变体的致病性得分 s i a s_{i}^{a} sia,该得分是根据mask氨基酸预测头得出的,即氨基酸 a a a相对于第 i i i位参考氨基酸的对数似然差。

fig1b

  • 图1B:primates-灵长目,致病性score将变体分为良性-benign(在人类或灵长类种群中观察到或频繁出现的错义变体)或致病性-pathogenic(未观察到的人类错义变体)的二元分类。根据良性变异的次等位基因频率(MAF,minor allele frequency)将其分成若干组,并在损失函数中引入权重,以减少罕见变异的贡献(这里是对预测的良性变异分配权重,频繁的变异权重大,罕见的权重小)。对于良性变异集中的每个观察到的变异,作者都会从致病变异集中抽取一个错义变异,并赋予它与良性变异相同的损失权重。

跨多个临床基准提高致病性分类表现

临床数据库收集导致人类疾病的错义变体。这些数据库可用于确定致病性预测模型的基准,但这些数据包含人类的偏见,可能会扭曲临床相关变异的真实分布。在这些数据库上训练的模型(例如,ClinVar)就继承了这些偏差,无法推广到其他基准。作者避免直接对人工标签进行训练,并能够对各种基准进行评估,包括ClinVar中注释错义变体的测试集、罕见发育障碍患者和对照组的新变体、ProteinGym中的MAVE(multiplexed assays of variant effect,变异效应多重分析)基准以及本研究获取的其他MAVE基准(图1C)。
fig1c

  • 图1C:在不同的基准上评估AlphaMissense,包括ClinVar中的注释错义变体,新发疾病变体,ProteinGym收集的MAVE数据。

使用方式

目前AlphaMissense的作者提供了如下内容:

  • 模型和损失的详细实现:modules_missense.py
  • 为推理创建输入特征的数据处理脚本:pipeline_missense.py,脚本需要访问基因数据库进行多序列比对,如果使用空间裁剪,需要访问AlphaFold数据库的蛋白质结构
  • 所有可能的人类氨基酸置换和错义变异的预测结果

没有提供的内容为:

  • 经过训练的AlphaMissense权重

AlphaMissense的预测结果文件在:https://console.cloud.google.com/storage/browser/dm_alphamissense
store

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31974.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣随机一题 模拟+字符串

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 1910.删除一个字符串中所有出现的给定子字符串【中等】 题目: …

【数据结构与算法】树的遍历,森林遍历 详解

树的先根遍历、后根遍历对应其二叉树的哪种遍历 树的先根遍历对应其二叉树的先序遍历(根-左-右)。树的后根遍历对应其二叉树的中序遍历(左-根-右)。 森林的先根遍历、中根遍历对应其二叉树的哪种遍历? 森林的先根遍历对应其二…

Elasticsearch 数据提取 - 最适合这项工作的工具是什么?

作者:来自 Elastic Josh Asres 了解在 Elasticsearch 中为你的搜索用例提取数据的所有不同方式。 对于搜索用例,高效采集和处理来自各种来源的数据的能力至关重要。无论你处理的是 SQL 数据库、CRM 还是任何自定义数据源,选择正确的数据采集…

STM32三种调试工具CMSIS-DAP、J-Link和ST-Link

一.概述 CMSIS-DAP、J-Link和ST-Link均是嵌入式处理器的开发调试工具。 CMSIS-DAP是一种轻量级调试接口,旨在实现开源的开发调试。它的优点是使用方便、通用性好、成本低,还支持固件的在线升级。 J-Link是一款由德国公司SEGGER Microcontroller开发的…

《Deep learning practice》learning notes

学习笔记: 【公开课】旷视x北大《深度学习实践》(28课时全) R Talk | 旷视科技目标检测概述:Beyond RetinaNet and Mask R-CNN 文章目录 Lecture 1: Introduction to Computer Vision and Deep Learning(孙剑&#x…

Semaphore(应对并发问题的工具类)

Semaphore Semaphore字面意思是信号量的意思,它的作用是控制访问特定资源的线程数目。 举例:现在有一个十字路口,有多辆汽车需要进经过这个十字路口,但是我们规定同时只能有两辆汽车经过。其他汽车处于等待状态,只要…

系统架构师考点--数据库系统

大家好。今天我来总结一下数据库系统的相关考点。本考点一般情况下上午场考试占3-5分,下午场案例分析题也会出现。 一、数据库系统 数据:数据库中存储的基本对象,是描述事物的符号记录。数据的种类:文本、图形、图像、音频、视频、学生的档…

AI/ML 数据湖参考架构架构师指南

这篇文章的缩写版本于 2024 年 3 月 19 日出现在 The New Stack 上。 在企业人工智能中,主要有两种类型的模型:判别模型和生成模型。判别模型用于对数据进行分类或预测,而生成模型用于创建新数据。尽管生成式人工智能最近占据了新闻的主导地…

【PyTorch】【机器学习】图片张量、通道分解合成和裁剪

一、导入所需库 from PIL import Image import torch import numpy as np import matplotlib.pyplot as plt二、读取图片 pic np.array(Image.open(venice-boat.jpg))上述代码解释:先用Image.open()方法读取jpg格式图片,再用np.array()方法将图片转成…

loveqq-framework 和 thymeleaf 整合遇到的 th:field 的坑,原来只有 spring 下才有效

相信大家在使用 thymeleaf 的时候,绝大部分都是和 springboot 一块儿使用的,所以 th:field 属性用的很舒服。 但实际上,th:field 只有在 spring 环境下下有用,单独的 thymeleaf 是不支持的! 为什么我知道呢&#xff…

DBeaver 数据结果集设置不显示逗号(太丑了)

从Navicat切换过来使用DBeaver,发现类似bigint 这种数据类型在结果集窗口中显示总是给我加上一个逗号,看着很不习惯,也比较占空间,个人觉得这种可读性也不好。 于是我在网上尝试搜索设置方法,可能我的关键词没命中&…

【ARMv8/ARMv9 硬件加速系列 2.4 -- ARM NEON Q寄存器与V寄存器的关系】

文章目录 Q 与 V 的关系向量寄存器 v 的使用赋值操作寄存器赋值总结Q 与 V 的关系 在ARMv8/v9架构中,v寄存器和q寄存器实际上是对相同的物理硬件资源的不同称呼,它们都是指向ARM的SIMD(单指令多数据)向量寄存器。这些寄存器用于高效执行向量和浮点运算,特别是在多媒体处理…

EM算法数学推导

EM算法可以看李航老师的《机器学习方法》、机器学习白板推导、EM算法及其推广进行学习。下文的数学推导出自“南瓜书”,记录在此只为方便查阅。

什么是MQ、优势与劣势、应用场景及模式

目录 一、什么是MQ? 二、RabbitMQ的优势 三、RabbitMQ的劣势 四、RabbitMQ能解决的问题 五、什么时候用到RabbitMQ? 六、RabbitMQ的几种模式 消息队列(Message Queue,MQ)是一种跨进程通信的机制,通过消息传递使不同的应用程序能够相互通信。RabbitMQ是目前流行的开源…

新手充电-boost升压电路解析

1.boost升压电路解析 本篇文章从充放电两个方面来对Boost电路的原理进行了讲解。并在最后补充了一些书本上没有的知识,整体属于较为新手向的文章,希望大家在阅读过本篇文章之后,能对Boost电路的基本原理有进一步了解。 Boost电路是一种开关直流升压电路,它能够使输出电压高…

【Qt基础教程】事件

文章目录 前言事件简介事件示例总结 前言 在开发复杂的图形用户界面(GUI)应用程序时,理解和掌握事件处理是至关重要的。Qt,作为一个强大的跨平台应用程序开发框架,提供了一套完整的事件处理系统。本教程旨在介绍Qt事件处理的基础知识&#x…

HTTP/2 头部压缩 Header Compress(HPACK)详解

文章目录 1. HPACK 的工作原理1.1 静态表1.2 动态表 2. 压缩过程2.1 编码过程2.2 解码过程 3. HPACK 的优势 在HTTP1.0中,我们使用文本的形式传输header,在header中携带cookie的话,每次都需要重复传输几百到几千的字节,这着实是一…

尚品汇-(三)

maven之packaging标签 (1)项目创建父模块 首先设置 下Maven Maven:仓库地址:这里是腾讯云仓库 作为父模块,src没用,干掉src 这里我们是Maven创建的项目,想要项目变成SpringBoot的项目&#xf…

AI学习指南机器学习篇-高斯朴素贝叶斯算法简介

AI学习指南机器学习篇-高斯朴素贝叶斯算法简介 高斯朴素贝叶斯算法的原理 算法的基本思想 高斯朴素贝叶斯算法是贝叶斯分类器的一种,其基本思想是通过计算输入特征对于每个类别的概率,然后选择具有最高概率的类别作为最终的分类结果。其“朴素”之处在…

程序猿大战Python——面向对象——继承基础

定义类的几种语法 目标:了解定义类的标准语法。 我们知道,可以使用class关键字定义类。 在类的使用中,定义方式有三种: (1)【类名】 (2)【类名()】 (3)【…