6.26.4.1 基于交叉视角变换的未配准医学图像多视角分析

1. 介绍

        许多医学成像任务使用来自多个视图或模式的数据,但很难有效地将这些数据结合起来。虽然多模态图像通常可以在神经网络中作为多个输入通道进行配准和处理,但来自不同视图的图像可能难以正确配准(例如,[2])。因此,大多数多视图模型单独处理视图,只有在全局池化之后才将它们组合起来,这样就消除了视图之间的任何局部相关性。如果这些局部相关性对图像的解释很重要,则可以通过在更早的空间特征级别上链接视图来改进模型。

        提出了一种在空间特征图层次上链接未注册视图的方法。受基于注意力的Transformer模型[13]的启发,该模型在序列或图像的遥远部分之间建立连接,模型使用注意力来连接视图之间的相关区域。将此转换器应用于由CNN生成的中间特征映射。基于可训练的注意力机制,该模型从一个视图中检索特征并将其转移到另一个视图中,在那里它们可以用来为原始视图添加额外的上下文。

        提出的方法不需要像素对应{它比较视图A的特征映射中的所有像素与视图B的特征映射中的所有像素}但使用可训练的注意力模型组合视图。通过将其应用于特征映射而不是直接应用于输入,允许模型链接更高级别的特征并降低计算复杂性。由于链接所有像素对很昂贵,因此研究了一种替代实现,即在视觉标记中对具有相似特征的像素进行分组

        提出了这些新颖的基于像素和基于令牌的交叉视图转换方法,并将它们应用于两个公共数据集。尽管在全局池化之后结合特征是处理未注册医学图像的多视图信息的一种相对常见的方法,但据我们所知,还没有方法使用基于变换的方法在空间特征级别上做到这一点。所提出的模型可以很容易地作为一个模块嵌入到基线多视图架构中,这些架构在全局池化后组合视图。在CBIS-DDSM乳房x线摄影数据集[5,7]和CheXpert胸部x线数据集[6]上评估了我们的方法。通过实验认为早期的特征组合可以提高多视图图像的分类能力。 

2. 相关工作

        大多数方法都是在后期将视图组合起来,通常是通过将从不同视图中获得的特征向量连接起来,然后使用完全连接的部分进行最终预测。 综合全局特征对于乳房x线摄影图像来说很常见,但很难进行配准[2]。例如,Bekker等人[1]结合了来自特定于视图的分类器的二元预测。Carneiro等[2]在全局池化后结合了特定视图CNN分支的特征。Wu等人[16]讨论了在单个网络中组合视图的多种方法,所有方法都具有特定于视图的卷积分支。其他地方也提出了类似的架构(例如,[10,12])。

        其他作品则结合了区域层面的观点。Wang等人[14]提出了一种基于区域的三步方法:在从每个视图中提取大量ROI(感兴趣的区域)之后,使用带有注意力驱动方法的CNN从每个ROI中提取特定于视图的特征。最后,通过基于LSTM的融合模型将两个视图的特征与其他临床特征结合起来。同样,Ma等人[9]提出使用Faster R-CNN来检测每个视图中的roi,然后将其转换为特征向量并组合在多视图网络中。

        Zhao等人[17]的工作,应用了一种联合注意机制,将两个视图或两个侧面(左和右乳房)结合起来,生成通道和空间注意图,突出不对称区域。注意力加权的、特定于视图的分支的输出被汇集和连接起来,以产生最终的分类。与我们在视图之间传递特征值的方法不同,Zhao等人只使用交叉视图信息来计算交叉视图的注意权重。

        Rubin等人[11]评估了一个具有特定视图卷积分支、全局平均池化和共享全连接层的模型,并报告将正面和侧面视图结合起来可以提高分类性能。最近,Hashir等人[3]在大型胸部x射线数据集上比较了几种多视图模型,结果表明,虽然多视图数据对某些诊断任务有用,但正面视图对其他任务可能足够。 

3. 方法

3.1 基线模型

        单视图基线(图1a)遵循基本的ResNet架构。该网络由具有卷积和池化层的ResNet块堆栈组成,其次是全局平均池化和计算最终输出的完全连接部分。延迟连接基线(图1b)通过对每个视图使用单独的卷积分支,将该模型扩展到多个未注册视图。在全局池化之后,所有视图的特征向量被连接到一个共享的全连接部分来计算预测。这与其他工作中多视图数据的组合方式类似,如[16]。

3.2 跨视图Transformer模型 

        与传统的transformer中用于单个序列内部信息传输的自注意力机制不同,使用交叉视图注意力来在视图之间传输信息。 该交叉视图transformer在模型的卷积部分的中间层工作。在第三个ResNet块之后应用该模块,并在全局池化之前保留一个ResNet块。

        定义了这个模型的两个变体:一个像素级的变体,它将源视图和目标视图的像素连接起来;一个基于令牌的变体,其中目标视图的像素与源视图中的视觉令牌相连接。 

跨视图注意力

        使用带有缩放点积注意的多头注意模型[13]。对于每个注意头,使用具有特定视图权重的1 × 1卷积来计算源和目标像素的嵌入。将目标视图的嵌入特征映射重塑为查询矩阵Q\in R^{n\times d},并将源视图的特征映射重塑为键矩阵K\in R^{m\times d},其中d是嵌入的大小,m和n是源和目标像素的数量。我们还将原始源特征映射重塑为值矩阵V\in R^{m\times f},其中f是特征映射的数量。接下来,我们使用缩放后的点积注意函数[13]进行计算

\operatorname{Attention}(Q,K,V)=\operatorname{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d}}\right)\mathbf{V}\in\mathbb{R}^{n\times f} 

对于每个目标像素,计算源视图特征的加权和,从而产生每个注意头的 f 个新特征。根据目标特征映射的形状将输出重塑为 m\times f 个特征映射,并应用1 × 1卷积将这些特征映射约简为 f 个基于注意力的特征映射。

将基于注意力的特征映射a与目标数据的原始特征映射x组合,得到组合后的特征映射y:

y=\text{LayerNorm}(x+\text{Dropout}(\text{Linear}(a))) 

Linear是一个1×1卷积,将注意力特征映射到x的特征空间。得到的特征映射y用作以下ResNet块的输入。 

语义视觉标记

        通过分组语义相关的像素,用较少数量的视觉标记替换源像素。 对源特征映射应用了三层标记化过程。在第一层,给定平坦化的特征映射X\in R^{m\times f},其中m是源像素的数量,f是特征映射的数量,我们计算令牌T:

 \mathbf{T}=\mathrm{softmax}_m\left(\mathbf{X}\mathbf{W}_A\right)^\top\mathbf{X}.

空间维度上的softmax使用标记器权重W_A\in R^{f,L} 来计算空间注意图,然后使用它来计算T\in R^{L\times f}中每个标记L的加权特征和。

\mathbf{W}_R=\mathbf{T}_{in}\mathbf{W}_{\mathbf{T}\to\mathbf{R}} 

\mathbf{T}=\mathrm{softmax}_m\left(\mathbf{X}\mathbf{W}_R\right)^\top\mathbf{X}. 

 \mathbf{W}_{\mathbf{T}\to\mathbf{R}}\in R^{f\times f},之后重复\mathbf{W}_{\mathbf{T}\to\mathbf{R}}这个过程,在第三个标记化层中获得最终的标记T集合。在基于标记的交叉Vision Transformer中使用这些标记代替源像素。

4. 数据

CBIS-DDSM

        在预处理过程中,使用描述的方法裁剪扫描Wu等人[16]使用阈值分割来定位一个固定大小的裁剪窗口,该窗口包括乳房,但不包括大部分空白背景。将裁剪后的图像降采样至原始分辨率的1/16,以获得305 × 188像素的图像。将强度归一化为µ= 0和σ = 1,在每次扫描的非零前景像素上测量。

CheXpert数据集

        一个大型的公共数据集,包含正面和侧面胸部x射线扫描,标注了13种不同的观察结果,标记为阴性、阳性、不确定或未知。选择了具有完整的正面和侧面视图的就诊,并将患者随机分组进行训练(23628个样本,16810个独特患者),验证(3915s, 2802p)和测试(3870s, 2802p)。我们将图像归一化为µ= 0和σ = 1,并使用零填充来为每个视图获得一个恒定大小的390×390像素。

5. 实验

        比较了四种模型:单视图模型、后连接模型以及基于令牌和基于像素的交叉视图转换器。所有模型都使用相同的ResNet-18架构来处理卷积和池化块,直至全局平均池化层。在ImageNet上使用预训练的权重,由PyTorch提供。在全局平均池化之后,将两个视图的特征向量连接起来,并将其用作计算输出的单个完全连接层的输入。

        在交叉视图变压器中,使用双向注意力,并在最终ResNet块之前应用交叉视图变压器,将变压器特征添加到最终卷积和池化层的输入中。对于CBIS-DDSM数据集,评估了具有12或18个注意头和16,32或48个令牌的模型,以及基于像素的转换器。对于CheXpert数据集,使用基于令牌的转换器,具有6或12个注意头和16或32个令牌。在所有情况下,嵌入大小都设置为每个头部32个特征。

“未注册”的双视图图像指的是两个视图之间的像素对应关系是未知的或不确定的。这可能是因为图像是从不同的角度、时间或条件下捕获的,或者经过了某种变换(如旋转、缩放或平移),导致两个视图中的像素不能直接对应。

介绍了一种新的基于特征图的跨视图transformer方法,用于连接未注册的双视图图像,并在两个数据集上展示了其优于全局连接方法的性能。同时,该方法易于集成到现有的多视图模型中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/36681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达2022机器学习专项课程C2W3:2.27 选修_数据倾斜

目录 处理不平衡数据集1.分类需求描述2.计算精确率和召回率 权衡精确率和召唤率1.手动调整阈值2.F1分数 总结 处理不平衡数据集 1.分类需求描述 如果你在处理一个机器学习应用,其中正例和负例的比例(用于解决分类问题)非常不平衡&#xff0…

数据库怎么同步

数据库要怎么同步呢,有很多方法,看你用什么数据库,如果是Sqlserver,你要数据库同步,那么可以使用自带的订阅发布,订阅发布应该是不错的方法,但是我上次要配置双向同步,它的对等发布好像没部署成…

Ansible-综合练习-生产案例

斌的招儿 网上教程大多都是官网模板化的教程和文档,这里小斌用自己实际生产环境使用的例子给大家做一个详解。涉及到一整套ansible的使用,对于roles的使用,也仅涉及到tasks和files目录,方便大家快速上手并规范化管理。 0.环境配置…

聚星文社AI工具

聚星文社AI工具是一种基于人工智能技术开发的工具,旨在辅助作者和写作人员提升创作效率和质量。 点击下载 该工具可以提供多项功能,包括语法纠错、智能推荐、文章自动摘要等。 通过使用聚星文社AI工具,用户可以在写作过程中得到即时的纠错建…

ECMAScript6介绍及环境搭建

这实际上说明,对象的解构赋值是下面形式的简写。 let { foo: foo, bar: bar } { foo: ‘aaa’, bar: ‘bbb’ }; 也就是说,对象的解构赋值的内部机制,是先找到同名属性,然后再赋给对应的变量。真正被赋值的是后者,而…

数据结构_绪论

1.数据结构的研究内容 研究数据的特性和数据之间的关系 用计算机解决一个问题的步骤 1.具体问题抽象成数学模型 实质: 分析问题--->提取操作对象--->找出操作对象之间的关系(数据结构)--->用数学语言描述 操作对象对象之间的关系 2.设计算法 3.编程,调试,运行 …

【数据结构与算法】哈希函数 详解

哈希函数的构造方法有哪些? 直接定址法:直接使用关键字或者关键字的某个线性函数值作为哈希地址。 数字分析法:对关键字进行分析,选择关键字中的某几位或者进行某种运算得到的结果作为哈希地址。 平方取中法:先计算关…

通信协议总结

IIC 基本特点 同步,半双工 标准100KHz,最高400KHz(IIC主要应用于低速设备) 硬件组成 需外接上拉电阻 通信过程 空闲状态 SDA和SCL都处于高电平 开始信号S和终止信号P 在数据传输过程中,当SCL0时,SDA才…

十常侍乱政 | 第2集 | 愿领精兵五千,斩关入内,册立新君,诛杀宦党,扫清朝廷,以安天下 | 三国演义 | 逐鹿群雄

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客是毛毛张分享三国演义文学剧本中的经典台词和语句,本篇分享的是《三国演义》第Ⅰ部分《群雄逐鹿》的第2️⃣集《十常侍乱政治》&am…

汇聚荣做拼多多运营第一步是什么?

汇聚荣做拼多多运营第一步是什么?在众多电商平台中,拼多多凭借其独特的社交电商模式迅速崛起,吸引了大量消费者和商家的目光。对于希望在拼多多上开店的商家而言,了解如何进行有效运营是成功的关键。那么,汇聚荣做拼多多运营的第…

算法入门:二分查找及其Java实现

在程序开发中,算法是解决问题的核心。本篇博客将详细讲解一种高效的查找算法——二分查找,并通过Java代码示例帮助你理解其实现和应用。 如果你觉得这篇文章对你有帮助,不要忘记点赞、收藏和关注我,这将是对我最大的支持和鼓励&am…

VMware 最新的安全漏洞公告VMSA-2024-0013

#深度好文计划# 一、摘要 2024年6月26日,VMware 发布了最新的安全漏洞公告 VMSA-2024-0013,修复了 VMware ESXi 和 VMware vCenter 中的多个安全漏洞。 VMSA-2024-0013:VMware ESXi 和 vCenter Server 更新修正了多个安全性漏洞 &#xff…

Unity3D 物体的运动

运动方式1 修改 position / localPosition ,可以让物体运动 例如, Vector3 pos this.transform.localPosition; pos.z distance; this.transform.localPosition pos; 此时,小车向Z 方向运动 具体代码如下 using System.Collection…

C语言入门课程学习笔记10:结构体联合体位域

C语言入门课程学习笔记10 第48课 - 自定义数据类型(上)实验-typedef实验小结 第49课 - 自定义数据类型(中)实验实验小结 第50课 - 自定义数据类型(下)实验实验小结 第51课 - 多文件程序设计实验实验实验小结…

uni-app picker多列选项

预期实现的效果&#xff1a; 选中后的效果&#xff1a; // Dom部分 <template><picker mode"multiSelector" :range"ssqRange" range-key"name" columnchange"ssqColumnChange" change"ssqChange" class"p…

研究发现GPT-4o等较新的多模态AI模型的安全机制有不足之处

在 ChatGPT 和类似的生成式人工智能模型推出后&#xff0c;很多人都在强调安全问题&#xff0c;政府也参与其中&#xff0c;OpenAI 甚至成立了一个超级协调小组&#xff0c;以阻止未来的人工智能失控&#xff0c;但由于对人工智能安全的发展方向存在分歧&#xff0c;该小组于今…

03逻辑门电路

分立门电路&#xff1a; 集成门电路&#xff1a; TTL门电路 MOS门电路&#xff1a;NMOS门电路、PMOS门电路、CMOS门电路 BICMOS门电路&#xff1a;CMOS的高输入阻抗和TTL的高放大倍数的结合 向更低功耗、更高速度发展 MOS管的Rdson在可变电阻区的阻值也一般会小于1000欧姆 …

达梦数据库的系统视图v$locked_object

达梦数据库的系统视图v$locked_object 在达梦数据库&#xff08;Dameng Database&#xff09;中&#xff0c;V$LOCKED_OBJECT 视图提供了与数据库中被锁定对象相关的信息。这通常用于监控和诊断数据库中的锁定问题&#xff0c;帮助管理员了解哪些对象被锁定了&#xff0c;以及…

1.回溯算法.基础

1.回溯算法 基础知识题目1.组合2.组合-优化3.组合总和|||4.电话号码和字母组合5.组合总和6.组合总和II7.分割回文串8.复原IP地址 基础知识 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯 因为回溯的本质是穷…