LaDM3IL:多实例学习用于免疫库分类

一个人的免疫组库由某一时间点的大量适应性免疫受体组成,代表了该个体的适应性免疫状态。免疫组库分类和相关受体识别有可能为新型疫苗的开发做出贡献。大量的实例对免疫组库分类提出了挑战,这可以表述为大规模多实例学习 (MMIL,Massive Multiple Instance Learning) 问题。传统的 MIL 方法(无论是在bag级还是instance级)在处理大量实例时都面临着巨大的计算负担或监督模糊的问题。为了解决这些问题,作者提出了一种基于标签消歧的多模态大规模多实例学习方法 (LaDM³IL) 用于免疫组库分类。LaDM³IL 采用实例级 MIL 范式来处理高计算成​​本的问题,并使用专门设计的标签消歧模块进行标签校正,减轻误导性监督的影响。为了更全面地表示每个受体,LaDM³IL 利用多模态融合模块来整合每个免疫受体的基因片段-gene segments和氨基酸 (AA,amino acid) 序列的信息。在巨细胞病毒 (CMV,Cytomegalovirus) 和Cancer数据集上进行的大量实验证明了所提出的 LaDM³IL 在免疫组分类和相关受体识别任务方面均具有出色的性能。

来自:A Label Disambiguation-Based Multimodal Massive Multiple Instance Learning Approach for Immune Repertoire Classification
工程:https://github.com/Josie-xufan/LaDM3IL

目录

  • 背景概述
    • 相关工作:标签消歧
  • 方法
    • 问题定义
    • 模型架构-特征提取
    • 标签消歧
    • 聚合
  • 数据集

背景概述

适应性免疫受体库 (AIRR,adaptive immune receptor repertoires) 由 T 细胞受体 (TCR,T-cell receptors) 和 B 细胞受体 (BCR,B-cell receptors) 组成,负责识别致病病原体(如细菌、病毒以及癌细胞)并记录过去和正在进行的免疫反应信息。图 1 显示了典型的适应性免疫过程,其中以 TCR 为例。TCR 位于 T 细胞表面,首先识别主要组织相容性复合体(肽-MHC 复合物,peptide-MHC complexes)上呈递的病原体抗原肽(antigen peptides),然后适应性免疫系统保存和扩增这些免疫受体(immune receptors)以激活免疫反应并保护人体免受疾病侵害。BCR 的病原体识别机制与 TCR 相似,主要区别在于 BCR 直接结合抗原表面,无需 MHC 呈递。
fig1

  • 图1:适应性免疫受体库和免疫过程的说明。a) 适应性免疫受体库 (AIRR) 包括个体的 T 细胞受体 (TCR) 和 B 细胞受体 (BCR),它们是适应性免疫反应中不可或缺的分子。b) 免疫过程:适应性免疫受体 (AIR,adaptive immune receptor) 位于 T 细胞和 B 细胞的表面,其功能是识别抗原肽(antigenic peptides),对于 TCR,该抗原肽由主要组织相容性复合体 (MHC,major histocompatibility complex) 呈递,对于 BCR,该抗原肽直接与抗原(antigen)本身结合。
  • antigen presenting cell:抗原呈递细胞

作为个体TCR和BCR的集合,AIRR记录了过去和正在进行的适应性免疫反应,其状态反映了免疫状态和个体对传染病、自身免疫性疾病和肿瘤相关病原体的反应。因此,AIRRs中的编码信息对于感染、疾病和癌症诊断具有高度的信息性和价值。这可以被概念化为一个免疫库分类问题。我们希望开发一种准确有效的方法来解决免疫系统分类和相关受体识别问题,因为它能加速疫苗的开发。

最近,基于高通量测序的免疫测序技术的进步促进了AIRRs的分析,其提供了一个组库中TCRs和BCRs的计数和受体序列的数据。这一进展为数据驱动方法铺平了道路。然而,由于以下因素,这仍然是一个具有挑战性的问题:

  • 高度多样性-High diversity:适应性免疫受体(AIRs)具有高度多样性,使适应性免疫系统能够识别大量抗原。据估计,自然界中至少有 1 0 16 10^{16} 1016种不同的AIRs。
  • 大容量-Large capacity:每个人都有大量不同的免疫受体( 1 0 7 − 1 0 8 10^{7}-10^{8} 107108)。
  • 低见证率-Low witness rate(WR):个体对特定疾病的免疫状态通常由基因库中极少数特定受体的存在决定。

在实践中,免疫组库分类可以被形式化为大规模多实例学习(MMIL)问题,其中AIR repertoires被视为bags,并且组库中的单个AIR被视为instance。AIRs的生物学功能由其氨基酸(AA)序列和相应的基因片段(V、D和J基因片段)决定。感兴趣的免疫状态(例如感染、疾病和癌症)是我们旨在预测的免疫库分类问题中的库级标签(repertoire-level label)。考虑到个体的特定免疫状态通常仅与库中一小部分特定受体相关,库中AIRs的准确实例水平标签是不可用的。这种弱监督的学习场景是多实例学习(MIL)的特点,在这种场景中,只有bag级标签是可用的。

现有的MIL算法可分为两种主要类型,即bag级和instance级MIL。在bag级MIL中,实例被编码为低维嵌入,然后将其聚合为bag级表示。聚合模块可以采用各种架构,包括固定的或参数化的pooling模块、注意力机制、RNN或Transformer方法,以及图神经网络。这种处理需要大量的计算资源,特别是在处理大规模数据集时,这阻碍了bag级MIL在免疫库分类(大容量)中的实践。相反,实例级MIL专注于实例级学习,并通过聚合每个实例的预测来生成bag级预测。这种方法提供了较低计算资源需求的优点。然而,实例级MIL面临着标签监督不准确的挑战,这源于广泛采用的将bag级标签分配给其中的每个instance的策略。鉴于低WR和高度多样性,这种标签分配策略在免疫库分类的背景下是有害的。

LaDM3IL是一种基于标签消歧的多模态大规模多实例学习方法,用于免疫库分类和相关受体识别。LaDM3IL利用instance级MIL框架来控制计算负载并应对高容量挑战。同时,为了应对高多样性挑战,LaDM3IL利用具有基于gating的注意力的多模态融合模块和张量融合来整合来自每个immune receptor的基因片段和氨基酸(AA)序列信息,从而生成每个受体的判别表示。其中,名为SC-AIR-BERT的预训练模型用于生成AA序列的嵌入。此外,LaDM3 IL结合了一个标签消歧模块(label disambiguation module),专门设计用于减轻错误监督的影响,以应对低WR的挑战。最后,在巨细胞病毒(CMV)和癌症数据集上对LaDM3 IL进行了广泛评估。

相关工作:标签消歧

标签消歧是部分标签学习(PLL,partial label learning)中的一个关键挑战,其目的是从候选标签集中找到正确的标签。与监督学习任务相比,PLL中的标签往往是模糊的,并且在模型学习过程中需要去噪以确保准确的分类。Pico是一种PLL方法(ICLR2021),以在统一的框架中处理表示学习和标签消歧问题,他们使用对比学习生成输入的embedding,然后,他们基于生成的embedding设计了一种基于prototype的标签消歧策略。在训练过程中,将基于prototype中最接近的类同时更新用于分类的pseudo target,以消除标签的歧义。

方法

问题定义

一个AIRR包含大量AIRs。给定 N N N个AIRRs { I R 1 , . . . , I R N } \left\{IR_{1},..., IR_{N} \right\} {IR1,...,IRN},每个AIRR包含 M M M个AIRs { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}。注意, M M M在不同的组库中差异很大。同时,将 N N N个组库的标签定义为 { Y 1 , . . . , Y N } \left\{Y_{1},...,Y_{N}\right\} {Y1,...,YN},类别总数为 C C C。此外,AIRs与表示为 { f r e i 1 , . . . , f r e i M } \left\{fre_{i}^{1},...,fre_{i}^{M}\right\} {frei1,...,freiM}的频率值配对,指示对某些抗原(certain antigens)的免疫反应强度。模型试图建立一个函数 Y i = F ( I R i ) Y_{i}=F(IR_{i}) Yi=F(IRi),与传统instance级MIL方法类似,最初将bag标签 Y i Y_{i} Yi分配给 { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}作为pseudo标签。随着训练更新这些标签。

模型架构-特征提取

图2说明了LaDM3IL的框架。为了获得每个AIR的全面表示,作者基于多模态融合模块,将AA序列和V(D)J基因片段的信息与基于门控的注意力机制相结合,然后进行张量融合。具体而言,基因编码器利用可训练embedding层将token化的V(D)J基因名称转换为数字表示,表示为 h g h_{g} hg h g h_{g} hg是将V基因片段和J基因片段的单独embedding连接起来的结果,每个片段的尺寸分别为16和8。

值得注意的是,D基因信息被排除在外,因为它在很大一部分AIRs中不存在。同时,使用预训练的序列编码器SC-AIR-BERT来生成AIRs的AA序列的表示,称为嵌入维度为512的 h s h_s hs。SCAIR-BERT是一个类似BERT的模型,包括6个标准Transformer层,每层包含4个注意力头。然后,通过基于门控的注意力机制,计算出两种模态的输出,记为 o g o_{g} og o s o_{s} os。张量融合模块对 o g o_{g} og o s o_{s} os进行整合: h = R e L U ( W f u s i o n ⋅ ( o g ⊕ o s ) + b f u s i o n ) h=ReLU(W_{fusion}\cdot(o_{g}\oplus o_{s})+b_{fusion}) h=ReLU(Wfusion(ogos)+bfusion)其中, ⊕ \oplus 表示Kronecker Production。
fig2

  • 图2:模型架构

标签消歧

以实例级MIL为基础框架来解决免疫库分类问题,该问题聚合了所有实例级预测以及bag级预测。为了解决监督不准确的问题,作者设计了一个标签消歧模块。该模块的关键设计是表示为 E p r o t o t y p e E_{prototype} Eprototype的原型,该原型保留了每个类别的典型嵌入以及调整每个受体标签的机制。具体步骤如下。

首先,在获得如特征提取器中所述的受体的表示后,将通过以下方式计算每个受体的预测: p i j = s o f t m a x ( F C r e c e p t o r ( h i j ) ) p_{i}^{j}=softmax(FC_{receptor}(h_{i}^{j})) pij=softmax(FCreceptor(hij))其中, F C r e c e p t o r FC_{receptor} FCreceptor是一个可学习分类器, p i j p_{i}^{j} pij是基于多模态特征embedding h i j h_{i}^{j} hij(来自第 i i i个免疫库的第 j j j个免疫受体)的预测概率。

然后,从每一类 c ∈ { 1 , . . . , C } c\in\left\{1,...,C\right\} c{1,...,C}中选出在epoch e e e时, p i k p_{i}^{k} pik超过阈值 θ \theta θ K K K个免疫受体,记为 k e c − r e c e p t o r kec-receptor kecreceptor。然后,原型将使用基于动量的方法更新,在epoch e + 1 e+1 e+1 处原型中 c c c类的嵌入通过在epoch e e e 处符合 c c c的所选 K K K受体的嵌入来更新。每个免疫受体的标签 Y i j Y_{i}^{j} Yij基于epoch e e e的原型和免疫受体之间的相似性进行调整。

聚合

为了生成免疫库的预测 p i p_{i} pi,作者将相应的免疫受体 p i j p_{i}^{j} pij的预测与相应频率 f r e i j fre_{i}^{j} freij组合如下: p i = ∑ j = 1 M ( p i j ⋅ f r e i j ) p_{i}=\sum_{j=1}^{M}(p_{i}^{j}\cdot fre_{i}^{j}) pi=j=1M(pijfreij)

数据集

CMV数据集由785个组库构成,每个组库平均有243,960个受体。作者排除了信息缺失的组库,684个组库被纳入实验,具有完整的CMV状态(阳性:312,阴性:372)和序列丰度。

癌症数据集包括训练集中的30,000个肿瘤相关受体和40,000个对照受体,以及测试集中10,000个肿瘤相关受体和19,851个对照受体。在CMV数据集上,作者评估方法在免疫库分类和相关受体鉴定方面的性能。在癌症数据集上,更多地关注癌症相关受体识别的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通信协议—Modbus

1、modbus简介 Modbus服务器:接收处理来自客户端的请求,并返回相应的响应; Modbus客户端:向Modbus服务器发送请求,并接收服务器返回的响应的设备或程序; 2、modbus poll调试工具下载 modbus poll用于测…

Python基础教程(二十):SMTP发送邮件

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

微信监控销售防飞单系统,让你的团队业绩稳如泰山!

团队中偶尔出现的私单、飞单问题而烦恼不已?你是否渴望拥有一个神器,能够实时监控销售过程,确保团队业绩的稳健增长?今天,就让我们一起探索这款神奇的“微信监控销售防飞单系统”,让你的销售团队如虎添翼&a…

React 渲染流程分析

React 页面是由组件组成的,从根组件直到叶组件,内部的组件数通过 Fiber 来保存并触发并发更新。页面的展示分为两部分,首先是初始化,所有组件首次展示,都要进行渲染,之后是更新流程,也就是页面产…

实况:老菜鸟自力更生从零开始重学spring目标是画出一张唬人大图(二、源码下载编译)

前情提要:调试前的基础知识梳理 速览 “Spring”包含哪些东西源码下载源码编译1、编译工具选择:gradle2、使用gradle编译spring并导入idea预编译spring-oxm导入IDEA确认合适的jdk版本排除spring-aspects模块 开始调试 “Spring”包含哪些东西 可以明确的…

代码随想录算法训练营第二十四天| (回溯) 77. 组合、 216.组合总和III、17.电话号码的字母组合

77. 组合 题目链接:77. 组合 文档讲解:代码随想录 状态:很多细节忘了 思路:先画图,然后可以发现,从1到n中选择k个数,可以看成是一个递归过程,这个递归的深度就是k。然后遍历当前这层…

Centos7安装jdk8或11以及切换方案

目录 jdk安装 安装OpenJDK11 安装OpenJDK8 配置默认的 Java 版本 验证 全局环境变量(选配) 个人版(自己可以用,公司不建议) 公司版本 /etc/profile 和 ~/.bash_profile 区别 前言-与正文无关 生活远不止眼前的苦…

【动态规划】| 路径问题之不同路径 力扣62

🎗️ 主页:小夜时雨 🎗️ 专栏:动态规划 🎗️ 如何活着,是我找寻的方向 目录 1. 题目解析2. 代码 1. 题目解析 题目链接: https://leetcode.cn/problems/unique-paths/description/ 通常动态规划的题目有…

建筑电工精选最新模拟试题(含答案)

一、填空题 1、我国安全生产的基本方针是 安全 第一,预防 为主,综合治理。 2、特种作业人员,必须积极主动参加培训与考核 。既是法律法规的规定,也是自身工作,生产及生命安全 的需要 3、触电急救&#x…

【Tkinter界面】Canvas 图形绘制(03/5)

文章目录 一、说明二、画布和画布对象2.1 画布坐标系2.2 鼠标点中画布位置2.3 画布对象显示的顺序2.4 指定画布对象 三、你应该知道的画布对象操作3.1 什么是Tag3.2 操作Tag的函数 https://www.cnblogs.com/rainbow-tan/p/14852553.html 一、说明 Canvas(画布&…

【Windows】配置Flutter开发环境

一、下载 flutter sdk 点此跳至下载官网 下载好flutter sdk,并解压到自定义的位置。 二、配置环境变量 此电脑 --> 右键 选择 属性 --> 点击 高级系统设置 --> 会弹出系统属性的窗口,点击 环境变量 按钮 1.配置加速镜像地址 PUB_HOSTED_…

【python】python指南(四):typing静态类型注解综述

一、引言 对于算法工程师来说,语言从来都不是关键,关键是快速学习以及解决问题的能力。大学的时候参加ACM/ICPC一直使用的是C语言,实习的时候做一个算法策略后台用的是php,毕业后做策略算法开发,因为要用spark&#x…

大话C语言:第24篇 预处理

1 C语言编译流程 C语言的编译流程包括: 预编译:将.c 中的头文件展开、宏展开,生成的文件是.i 文件。gcc指令:gcc -E file.c -o file.i 编译:将预处理之后的.i 文件生成 .s 汇编文件。gcc指令:gcc -S file…

AI影像时代来临,联发科天玑以专业无畏精神重新定义手机专业影像

近期,联发科与Discovery探索频道联合举办了一场以“越极境,见芯境”为主题的天玑影像展,活动地点位于我国桂林阳朔。活动现场展示了阳朔壮美山水的画卷,以及救援队员在岩壁上进行训练的极限瞬间。令人意想不到的是,这些…

【课程系列01】某乎的AI大模型全栈工程师-第4期

网盘链接 链接:https://pan.baidu.com/s/1QLkRW_DmIm1q9XvNiOGwtQ --来自百度网盘超级会员v6的分享 课程目标 AI大模型全栈工程师是指具备人工智能领域全方位能力的工程师,特别是在大模型开发和应用方面具有深厚的专业知识和技能。以下是关于AI大模型…

第12章.STM32标准库简介

目录 0. 《STM32单片机自学教程》专栏 12.1 CMSIS 标准 12.2 STM32标准库文件结构 12.2.1 主结构 12.2.2 Libraries固件库文件 CMSIS文件夹 1.core_cm3.c&core_cm3.h 2.startup启动文件 3.Stm32f10x.h 4.system_stm32f10x.c&system_stm32f10…

Linux常用命令及或g++(或gcc)编辑器运用

一. 实验内容 1.打开VMware Workstation虚拟机进入Ubuntu系统,打开终端。 练习使用常用的Linux命令,主要包括如下命令: mkdir, rmdir, cd, pwd, ls, clear, cat, rm等。(其中,cat、rm命令请在下面实验内容3…

IIC通信总线

文章目录 1. IIC总线协议1. IIC简介2. IIC时序1. 数据有效性2. 起始信号和终止信号3. 数据格式4. 应答和非应答信号5. 时钟同步6. 写数据和读数据 2. AT24C023. AT24C02读写时序4. AT24C02配置步骤5. 代码部分1. IIC基本信号2. AT24C02驱动代码3. 实验结果分析 1. IIC总线协议 …

【C++提高编程-05】----C++之Deque容器实战

🎩 欢迎来到技术探索的奇幻世界👨‍💻 📜 个人主页:一伦明悦-CSDN博客 ✍🏻 作者简介: C软件开发、Python机器学习爱好者 🗣️ 互动与支持:💬评论 &…

MySQL的三种重要的日志

日志 Mysql有三大日志系统 Undo Log(回滚日志):记录修改前的数据,用于事务回滚和 MVCC(多版本并发控制)。 Redo Log(重做日志):记录数据变更,用于崩溃恢复&…