DT-MIL:用于组织病理学图像的MIL方法

学习信息表示对于组织病理学图像的分类和预测任务至关重要。由于图像大小巨大,通常使用多实例学习(MIL)方案来处理整张组织病理学图像(whole-slide histopathological image)。然而,MIL的弱监督性质导致了学习有效的whole-slide-level表示的挑战。为了解决这个问题,作者提出了一种基于可变形Transformer(DT)架构和卷积层的新型MIL模型,称为DT-MIL。DT架构使MIL模型能够通过同时全局聚合bag中的实例特征并在bag表示学习期间编码实例的位置上下文信息来更新每个实例特征。与其他最先进的MIL模型相比,DT-MIL具有以下优点:(1)以完全可训练的方式生成bag表示,(2)用所有实例的高级非线性组合来表示bag,而不是基于fixed pooling的方法(如最大池化和平均池化)或简单的基于注意力的线性聚合,以及(3)在bag嵌入阶段对位置关系和上下文信息进行编码。除了提出的DT-MIL,作者还开发了其他可能的基于Transformer的MIL进行比较。大量实验表明,DT-MIL在组织病理学图像分类和预测任务中优于最先进的方法和其他基于Transformer的MIL架构。

来自:DT-MIL: Deformable Transformer for Multi-instance Learning on Histopathological Image, MICCAI 2021

目录

  • 背景概述
  • 方法
    • WSI降维和实例级特征选择
    • 可变形Transformer Encoder
    • 解码器
    • 分类头
  • 总结

背景概述

组织病理学图像分析在现代医学中起着至关重要的作用,尤其是在癌症治疗中,它已被用作诊断的金标准。随着扫描仪的发展,这些图像可以数字化为whole slide image(WSI),这为计算机辅助分析铺平了道路。由于WSI的巨大规模,组织病理学图像的分析通常形式化为多实例学习(MIL)任务,其中WSI被视为一个bag,并被拼接成数百或数千个patch,这些patch被视为实例。随着人工智能(AI)在组织病理学图像分析中的应用不断深入,它已逐渐进入转移预测和疾病预后等应用,我们需要全面考虑整个WSI上的肿瘤微环境,包括成纤维细胞、免疫细胞和血管等。

现有的MIL方法由三个主要范式组成:袋空间-bag space(BS)、实例空间-instance space(IS)和嵌入空间-embedded space(ES)MIL。BS范式将每个bag视为一个单独的实体(entity),并利用bag-to-bag的距离进行分类,由于图像大小巨大,这在组织病理学图像分析中并不常见。在IS范式中,学习过程主要在实例级别,而bag级别的预测是通过简单地聚合instance预测来获得的。IS范式方法通常是两阶段方法,通常表现出不如其他范式的性能。另一方面,ES范式首先将所有实例嵌入到低维表示中,然后将它们集成以生成bag级表示,这有可能全面嵌入整个WSI的信息,用于处理特定的分析任务。因此,设计一个有效的embedding模块是提高ES MIL方法性能的关键。

bag embedding的第一次尝试是基于fixed pooling的方法,如最大池化、平均池化,或基于参数化池化的方式,如动态池化和自适应池化。这些方法要么是固定的,要么是部分可训练的,灵活性有限。后来,注意力机制被引入MIL的bag embedding中,这是完全可训练的。Shi等人通过将注意力机制与损失函数连接起来,并添加特定的规则来提高注意力机制的分配权重,进一步改进了基于注意力的MIL。然而,这些基于单一注意力的方法将bag作为实例特征的加权和,这只是线性组合。

此外,上述所有方法都未能对WSI(bag)中的patch(instance)的位置和上下文信息进行编码。Campanella等人采用递归神经网络(RNN)作为bag embedding模块,并在bag表示学习过程中将提取的patch特征视为一维序列,对位置和上下文信息进行编码。然而,一维sequence不能完全表示WSI内patch的2D位置,并且RNN模型顺序而不是并行地处理instance嵌入。此外,RNN捕获远程信息的能力有限。作为最先进的seq2seq体系结构之一,Transformer正在自然语言处理任务中迅速取代RNN。Transformer中的自注意力层允许它通过同时聚合序列中的所有元素来更新序列中的每个元素,并且位置编码过程允许模型利用位置信息。

在这项工作中,作者首次将Transformer引入组织病理学图像分析。提出了一种新的ES范式下的模型,该模型使用可变形Transformer编码器-解码器和卷积层来构建用于生成高级表示的完全可训练的bag embedding模块。

方法

DT-MIL的框架如图1所示。它由三个主要组成部分组成,包括位置保持降维(PPDR)、基于Transformer的bag嵌入(TBBE)和分类(classification)。在PPDR组件中,涉及卷积神经网络(CNN)编码器来将WSI下采样为小特征图像(small feature image),其中原始WSI中的每个patch被嵌入为位于相应位置的超像素(提取的实例级特征)。然后是bag嵌入模块,它由一个用于自动实例级特征选择的1×1卷积层和一个用于生成高级bag表示的可变形Transformer编码器-解码器组成,该高级bag表示全面包含所有实例特征以及对应的2D位置信息。Transformer中的自注意力机制在bag嵌入过程中为不同的实例特征分配权重,实现自适应的实例选择。可变形Transformer编码器中的可变形注意力模块可以进一步降低模型复杂性,并允许bag嵌入模块更多地关注关键实例。最后,在获得信息丰富的高级bag表示后,跟随分类头进行最终预测。
fig1

  • 图1:概述了所提出的可变形Transformer多实例学习模型(DT-MIL),该模型由三部分组成,即位置保持降维(PPDR)、基于Transformer的bag嵌入(TBBE)和分类。分类token类似于BERT中的[class]token,它是一种可学习的嵌入,用于执行分类。

WSI降维和实例级特征选择

要处理千兆像素的WSI,DT-MIL的第一步是缩小其规模。为此,使用预先训练的EfficientNet B0(在ImageNet上)从WSI内的感兴趣区域(ROI,如果有的话)的patch中提取特征。这些特征被视为超像素,然后缝合在一起形成带位置编码的特征图像。具体的,假设来自WSI I I I的patches是 { x 1 , x 2 , . . . , x N } \left\{x_{1},x_{2},...,x_{N}\right\} {x1,x2,...,xN},其中 x i ∈ R W × H × 3 x_{i}\in R^{W\times H\times 3} xiRW×H×3 W W W H H H为patch的width和height。对应的embedded特征记为 { e 1 , e 2 , . . . , e N } \left\{e_{1},e_{2},...,e_{N}\right\} {e1,e2,...,eN},其中 e i ∈ R D e_{i}\in R^{D} eiRD。假设WSI由 R R R行和 C C C列的patches组成,那么缩小的位置编码特征图像表示为 Z 0 ∈ R R × C × D Z_{0}\in R^{R\times C\times D} Z0RR×C×D。然后,一个1×1的卷积用于实例级特征选择,将位置编码特征图像的通道维数从 D D D降低到更小的维数 d d d,生成新的位置编码特征图 P 0 ∈ R R × C × d P_0∈R^{R×C×d} P0RR×C×d W , H = 512 W,H=512 W,H=512 D = 1280 , d = 512 D=1280,d=512 D=1280,d=512)。

可变形Transformer Encoder

bag嵌入模块中的可变形Transformer编码器用于通过同时全局聚合 P 0 P_0 P0中的实例表示并参考位置上下文信息来更新每个实例的表示。编码器是重复块的堆叠,其中每个块由多头可变形自注意模块(MDSA)和前馈网络(FFN)以及残差连接和层归一化(LN)组成,即: E B ( P i ) = L N ( H + F F N ( H ) ) H = L N ( P i − 1 + M D S A ( P i − 1 ) ) EB(P_{i})=LN(H+FFN(H))\\ H=LN(P_{i-1}+MDSA(P_{i-1})) EB(Pi)=LN(H+FFN(H))H=LN(Pi1+MDSA(Pi1))其中, P i P_{i} Pi是第 i i i个encoder block的feature maps。与transformer中的传统自注意模型不同,该模型在更新其中一个实例时全局聚合所有实例表示,可变形自注意模块只关注一小部分关键实例。给定一个输入 P i ∈ R R × C × d P_{i}\in R^{R\times C\times d} PiRR×C×d,令 q q q索引一个query元素 f q f_{q} fq和2D参考点 r q r_{q} rq,MDSA被定义为: M D S A ( f q , r q , P i ) = ∑ m = 1 M W m [ ∑ k = 1 K A m q k ⋅ W m ′ P i ( r q + Δ r m q k ) ] MDSA(f_{q},r_{q},P_{i})=\sum_{m=1}^{M}W_{m}[\sum_{k=1}^{K}A_{mqk}\cdot W'_{m}P_{i}(r_{q}+\Delta r_{mqk})] MDSA(fq,rq,Pi)=m=1MWm[k=1KAmqkWmPi(rq+Δrmqk)]其中 m m m对注意力head进行索引, k k k对采样的keys进行索引, K K K是所有采样keys的总数( K < R C K<RC K<RC)。 W m ′ ∈ R C v × d W'_{m}\in R^{C_{v}\times d} WmRCv×d W m ∈ R C v × d W_{m}\in R^{C_{v}\times d} WmRCv×d,其中 C v = d / M C_{v}=d/M Cv=d/M是可学习的权重。 A m q k ∈ ( 0 , 1 ) A_{mqk}\in(0,1) Amqk(0,1)以及 Δ r m q k ∈ R 2 \Delta r_{mqk}\in R^{2} ΔrmqkR2表示第 m m m个注意力头的第 k k k个采样点的attention weight和sampling offset。

在Transformer编码器中,位置信息嵌入了位置编码模块。在这里,作者将Transformer中的原始模块扩展到2D情况。对于每个维度的坐标,作者分别使用sin和cos函数。

解码器

在解码器部分,作者遵循Transformer的标准架构。解码器由具有级联的多头自注意力、FFN层以及残差连接和层归一化的重复块组成。与使用六个块作为解码器的原始Transformer不同,这里使用两个block来进一步降低模型的复杂性。为了进行分类,作者设置了一个可学习的嵌入作为cls token。解码器中的注意力机制是经典的key-value attention: A t t ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Att(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V Att(Q,K,V)=softmax(dk QKT)V在多头自注意力中, V = K = Q V=K=Q V=K=Q,在多头编码器-解码器注意力中, K = V K=V K=V为encoder的输出,而 Q Q Q是decoder的输出。

分类头

分类头将bag级嵌入映射到最终预测,该预测由具有一个隐藏层的多层感知器(MLP)实现。

除了提出的DT-MIL,作者还开发了三种具有不同bag嵌入模块的ES-MIL方法,这些模块在位置编码的feature image的顶部工作,以生成bag表示。如图2所示,第一种方法利用卷积层来生成bag表示(CNNMIL,图2A)。第二种称为ViT-MIL,使用ViT中的分类变换器架构(图2B)。第三种方法,表示为DTEC-MIL,使用可变形Transformer编码器和用于bag嵌入的级联(图2C)。
fig2

总结

在WSI中,bag表示整张大图,大图中的patch为instance,注意这个patch是512×512的。MIL的作用是整合instance的表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24514.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

能在电脑和手机上使用的便签app 好用的便签软件

随着科技的日新月异&#xff0c;越来越多的软件被开发出来&#xff0c;极大地便利了我们的工作和生活。其中&#xff0c;便签软件凭借其便捷的记录功能&#xff0c;受到了广大用户的喜爱。特别是那些能在电脑和手机上同步使用的便签app&#xff0c;更是为我们的工作和生活带来了…

【阿里YYDS】通义千问正式开源 Qwen2

Qwen2–72B正式开源&#xff0c;性能全面超越开源模型Llama3-70B&#xff0c;也超过文心4.0、豆包pro、混元pro等众多中国闭源大模型。 在过去一段时间里&#xff0c;Qwen系列模型从Qwen1.5升级到Qwen2&#xff0c;Qwen2分5个尺寸&#xff0c;包括Qwen2-0.5B、Qwen2-1.5B、Qwen…

Nice Mind 手机版本的思维导图,最新V8.9.0版本,无内购!

这是一款非常好用的手机思维导图APP&#xff0c;为了防止和谐&#xff0c;名字就不说了&#xff0c;软件可以帮助用户快速制作思维导图&#xff0c;不管什么类型的都可以直接使用。如果需要电脑版本的思维导图&#xff0c;可以看置顶文章的另一款软件。 软件获取方式&#xff…

PostgreSQL基础(十):PostgreSQL的并发问题

文章目录 PostgreSQL的并发问题 一、事务的隔离级别 二、MVCC PostgreSQL的并发问题 一、事务的隔离级别 在不考虑隔离性的前提下&#xff0c;事务的并发可能会出现的问题&#xff1a; 脏读&#xff1a;读到了其他事务未提交的数据。&#xff08;必须避免这种情况&#xf…

TCP攻击是怎么实现的,如何防御?

TCP&#xff08;Transmission Control Protocol&#xff09;是互联网协议族中的重要组成部分&#xff0c;用于在不可靠的网络上提供可靠的数据传输服务。然而&#xff0c;TCP协议的一些特性也使其成为攻击者的目标&#xff0c;尤其是DDoS&#xff08;Distributed Denial of Ser…

安装windows11系统跳过微软账号登录,使用本地账号登录方法

在安装win11系统&#xff0c;进行到如图下所示界面的时候&#xff0c;暂停下 我们可以按下键盘的ShiftF10按键&#xff08;部分电脑是FnShiftF10&#xff09;&#xff0c;这时屏幕会出现命令行窗口&#xff0c;如图下所示 我们需要在命令行内输入代码oobe\bypassnro.cmd然后回车…

[ 网络通信基础 ]——网络的传输介质(双绞线,光纤,标准,线序)

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;网络通信基础TCP/IP专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年6月8日14点23分 &#x1f004;️文章质量&#xff1a;94分 前言—— 在现代通信网络中&#xff0c;传输介质是数据传…

09 platfrom 设备驱动

platform 设备驱动,也叫做平台设备驱动。请各位重点学习! 1、驱动的分离与分层 1)驱动的分隔与分离 Linux 操作系统,代码的重用性非常重要。驱动程序占用了 Linux 内核代码量的大头,如果不对驱动程序加以管理,用不了多久 Linux 内核的文件数量就庞大到无法接受的地步。…

手猫助手Agent技术探索总结

随着LLM的发展&#xff0c;ChatGPT能力不断增强&#xff0c;AI不断有新的概念提出&#xff0c;一种衍生类型的应用AI Agent也借着这股春风开启了一波话题热度&#xff0c;各种初创公司&#xff0c;包括Open AI内部也都在密切关注着AI Agent领域的变化。阿里集团内的AI团队也有很…

three.js指南

threejs 相关资料 threejs 官网threejs 案例 安装&#xff08;Installation&#xff09; 使用 NPM 和构建工具进行安装 对于大多数用户而已&#xff0c;从 npm 包注册表中心 安装并使用 构建工具 会是一个更推荐的方案。因为项目需要的依赖越多&#xff0c;就越有可能遇到静…

限时限量!6.18云服务器大促盘点,错过一次,再等一年!

随着云计算技术的飞速发展&#xff0c;云服务器已成为企业和个人构建和扩展在线业务的首选平台。特别是在大型促销活动如618年中大促期间&#xff0c;云服务提供商纷纷推出极具吸引力的优惠&#xff0c;以降低用户上云的门槛。以下是对当前市场上几个主流云服务提供商的优惠活动…

C++第二十五弹---从零开始模拟STL中的list(下)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】 目录 1、函数补充 2、迭代器完善 3、const迭代器 总结 1、函数补充 拷贝构造 思路&#xff1a; 先构造一个头结点&#xff0c;然后将 lt 类中的元…

柴油十六烷值检测 液压油硫含量检测 变压器油检测

检测的油品包括&#xff1a;柴油、润滑油、液压油、机油、汽油、以及一些工业用油等。 柴油检测项目GB19147-2013&#xff1a;氧化安定性、硫含量、酸度、10%蒸余物残炭、灰分、铜片腐蚀、水分、机械杂质、润滑性、多环芳烃、运动粘度、凝点、冷滤点、闪点、十六烷值、馏程、密…

什么是Docker ?

在软件开发的星辰大海中&#xff0c;有一个神奇的技术&#xff0c;它能够将应用程序及其依赖环境封装在一个轻量级的、可移植的容器中。这项技术就是Docker。它不仅简化了应用的部署流程&#xff0c;还让开发和运维之间的界限变得模糊&#xff0c;使得跨平台部署变得前所未有的…

如何搭建跨境电商独立站||搭建跨境电商独立站必须具备的功能板块设计

在搭建跨境电商独立站时&#xff0c;需要确保网站具备一系列关键的功能板块&#xff0c;以提供用户友好的购物体验并确保业务的顺利进行。以下是这些功能板块的详细归纳&#xff1a; 注册登录与身份验证&#xff1a; 用户注册与登录&#xff1a;允许用户创建账户&#xff0c;通…

动态规划学习(混合背包,有依赖的背包,以及背包思想)

混合背包的定义&#xff1a; 混合背包问题就是混合01背包、完全背包和多重背包&#xff0c;可供选择的物体i可能有一个、或者无数个、或者有限个。 所以&#xff0c;就不要考虑这么多了&#xff0c;直接分这三种情况考虑就行&#xff01;&#xff01; 样例&#xff1a; for(…

CW32F030K8T7单片机在即热式热水器的应用介绍

随着智能家居技术的不断进步&#xff0c;即热式热水器作为现代家庭中的重要组成部分&#xff0c;正逐渐向智能化、节能化方向发展。本方案通过采用武汉芯源半导体的CW32F030系列单片机&#xff0c;以其高性能、超强抗干扰等特性&#xff0c;为即热式热水器的智能化提供了理想的…

Allegro导入DXF文件

阿里狗导入DXF文件 点击File–>Import–>DXF&#xff0c;注意DXF file那边不能使用中文路径和文件名以及非法字符&#xff0c;DXF units一般为mm&#xff0c;结构那边一般都用mm制作图&#xff0c;右边三个选项只需要勾选中间那个&#xff0c;意思是以增加的形式导入&am…

AI图书推荐:这就是ChatGPT

这本书《这就是ChatGPT》&#xff08;What Is ChatGPT Doing ... and Why Does It Work &#xff09;由Stephen Wolfram撰写 全书内容概要如下&#xff1a; **引言与预备知识** - 作者首先表达了对ChatGPT技术突破的兴奋之情&#xff0c;指出这不仅是技术的故事&#xff0c;也是…

FastAPI给docs/配置自有域名的静态资源swagger-ui

如果只是要解决docs页面空白的问题&#xff0c;可先看我的这篇博客&#xff1a;FastAPI访问/docs接口文档显示空白、js/css无法加载_fastapi docs打不开-CSDN博客 以下内容适用于需要以自用域名访问swagger-ui的情况&#xff1a; 1. 准备好swagger-ui的链接&#xff0c;如&am…