DTAN: Diffusion-based Text Attention Network for medical imagesegmentation

DTAN:基于扩散的医学图像分割文本关注网络

摘要

在当今时代,扩散模型已经成为医学图像分割领域的一股开创性力量。在此背景下,我们引入了弥散文本注意网络(Diffusion text - attention Network, DTAN),这是一个开创性的分割框架,它将文本注意原理与扩散模型相结合,以提高医学图像分割的精度和完整性。我们提出的DTAN架构旨在通过利用文本注意机制将分割过程引导到感兴趣的领域。该机制善于识别和归零有意义的区域,从而提高分割的准确性和鲁棒性。同时,融合扩散模型可以减少医学图像中噪声和不相关背景数据的影响,从而提高分割结果的质量。

扩散模型有助于过滤掉外来因素,使网络能够更有效地捕捉目标区域的细微差别和特征,从而提高分割精度。我们对DTAN进行了三个数据集的严格评估:Kvasir-Sessile, Kvasir-SEG和GlaS。由于其与临床应用的相关性,我们的重点特别吸引到Kvasir-Sessile数据集。当与其他最先进的方法进行基准测试时,我们的方法在Kvasir-Sessile数据集上显示出显着的改进,平均交集超过联合(mIoU)增加2.77%,平均骰子相似系数(mDSC)增加3.06%。这些结果有力地证明了DTAN的通用性和鲁棒性,以及它在医学图像分割任务中的明显优势。

1 介绍

医学图像分割是医学影像领域的基石,为临床医生准确定位、辅助诊断、制定治疗方案提供了不可或缺的支持。在最近的医学图像分析领域,编码器-解码器网络得到了广泛的探索,UNet架构[1]就是一个典型的例子。该架构采用编码器通过卷积和下采样提取深度特征,而解码器通过上采样将这些特征恢复到原始输入分辨率。跳跃连接的集成减轻了下采样导致的空间信息丢失,提高了分割的保真度。UNet框架发挥了重要作用,促进了许多基于UNet架构的开发[2-7]。

在医学图像分割领域,卷积神经网络(cnn)得到了广泛的应用。然而,医学图像中噪声的存在会影响cnn的性能。

为了解决这个问题,引入了扩散模型[8-10]。这些生成模型,使用变分推理和马尔可夫进行训练

链[11],旨在通过有效处理医学图像中的噪声和不确定性来提高分割的准确性和鲁棒性。他们通过学习反向扩散过程,在去噪高斯模糊图像方面取得了特别成功[12]。

扩散模型在各种应用中取得了显著的成功,包括图像生成[13,14]、绘画[15,16]和语义分割[17,18]。它们增强图像平滑性和降低噪声的能力使得扩散模型与cnn的融合成为一种流行的去噪方法,在医学图像分割方面取得了重大成就[19-21]。这种组合使得cnn在分割过程中能够更有效地去除噪声,从而提高分割结果的质量和精度。

受cnn和扩散概率模型(Diffusion Probabilistic Models, DPM)协同作用的启发,我们提出了一种用于医学图像分割的前沿网络模型DTAN。该模型首次将字节对编码引导的注意力与扩散模型相结合。在医学图像分割中,病变或器官往往被遮挡

背景干扰时,DTAN采用动态条件编码来细化分割结果。在迭代采样过程中,我们的模型在每一步捕获图像的先验条件,以学习分割后的图像信息。为了实现自适应区域关注,将当前步骤的分割图像集成到每一步的图像先验编码中。此外,在训练过程中,基于文本的注意机制与辅助分类任务一起使用,以合并与数字和大小相关的特征,允许网络通过加权文本嵌入学习额外的特征表示。通过在Kvasir-SEG[22]、KvasirSessile[23]和GLAS[24]数据集上的大量实验验证了我们提出的方法的有效性,证明了它作为医学图像分割的一种变革性方法的显著优势和潜力。

为了简洁地概括我们研究的贡献,我们描述了以下关键点:

1. 我们引入了一种新的基于文本的注意力机制与扩散模型的集成,为医学图像分割领域量身定制。这种创新的方法将网络的焦点指向关键区域,利用扩散模型固有的信息传播能力来实现精确的分割结果。

2. 特征增强模块(FEM)的实现允许多尺度信息的有效资本化,从而提高分割性能。有限元法擅长提取和融合不同尺度图像的特征,丰富了网络识别不同尺寸结构的能力,从而提高了分割精度。

3. 我们建议在网络中加入一个辅助分类任务,以提高目标分割区域的准确性。通过为基于文本的嵌入分配权重,该网络被赋予了吸收附加特征表示的能力。这种方法使网络能够更准确地适应待分割区域的不同数量和尺寸,从而提高整体分割精度。

2. 相关工作

在医学图像分割领域,经典的U-Net模型[1]已经成为一个基础框架,用于预测输入图像的分割掩码。U-Net巧妙地解决了由于下采样而导致的低级信息丢失问题,它结合了可以恢复细粒度细节的跳过连接。

在此基础上,U-Net++[2]和ResUNet++[6]因其在医学图像分割方面的增强性能而得到广泛认可。当代的研究工作主要集中在通过增加或改进各种模块来增强网络能力[25-34]。例如,PraNet[35]引入了一种并行的反向注意机制,该机制利用肿瘤区域的面积和边界信息进行精细分割,采用并行部分解码器整合高级特征并生成全局知情特征来描绘感兴趣的区域。

HRENet[36]通过集成上下文增强技术来捕获全面的语义信息并将其与局部特征协同,提高了分割的准确性和一致性。它还具有自适应特征聚合模块,可以自动融合不同尺度的特征,使模型能够更好地适应目标的各种大小和形状。在训练过程中,HRENet利用边缘和结构一致性损失函数来强调边缘的精度和整体结构的完整性。

dcau - net[32]代表了一个重大的飞跃,引入了有选择地保留主要特征的策略,从而利用低级和高级语义信息进行更准确的分割。它还结合了渠道智能注意力块,以更有效地辨别和处理不同渠道的信息。

XBound-Former[37]通过集成多层次边界信息和全局上下文建模,解决了皮肤病变分割中尺寸、形状变化和模糊边界的挑战。它采用专门的学习器对图像特征进行微调,并结合边界关键点映射生成算法来增强边界的描绘。

文献[38]提出在网络中集成文本注意机制,并在编码层对属性进行加权,可以显著提高网络对不同大小和数量的肿瘤的分割精度。在多个尺度上聚合来自单个解码块的特征可以提高分割精度。

polyseg方法[39]利用自适应尺度上下文模块(ASCM)和语义全局上下文模块(SCCM)来促进语义分割。ASCM动态调整接受野以适应不同大小的息肉,而SCCM增强了对全局语义上下文的理解,并将其与底层特征融合以提高分割的鲁棒性。

扩散模型在最近的各种任务中显示出其潜力[18,40 - 42],特别是在医学图像分割中[19,21,43 - 45]。去噪扩散隐式模型(diffusion implicit model, DDIM)[9]通过引入不同的采样方案生成图像。与传统的随机采样相比,它采用了一种确定性采样方法,跳过多个步骤来获取图像。这种确定性采样方案保证了从相同的噪声图像中采样的输出图像是确定性的,不受随机变化的影响。此外,DDIM在图像之间实现了有意义的插值,实现了图像之间的平滑过渡。为了进一步提高DDIM的性能,论文[46]最近的工作做了一些改进。他们调整了损失目标,改进了模型架构,并在采样过程中引入了分类器引导,以提高生成图像的质量。这些改进使DDIM能够生成高质量的图像并取得令人满意的结果。此外,Wolleb等[17]。提出了一种新的基于扩散模型的二维医学图像语义分割方法,证明了扩散模型在医学图像分割领域的适用性。MedSegDiff[21],该研究引入了一种基于Transformer的Ushaped框架,该框架带有一种新的频谱空间Transformer,以促进医学图像分割。同样,diffi - unet[19]将扩散模型集成到u形网络中,在推理过程中鲁棒地提取语义信息,增强预测结果。

3. 方法

图1展示了我们提出的扩散文本注意网络(DTAN)的综合架构。传统的医学分割技术通常直接从输入的图像数据中推断出最终的分割标签,我们的方法将扩散模型集成到分割框架中。该网络不仅对原始图像进行处理,而且对分割后的掩码图像进行带噪处理。这种双输入策略使扩散模型能够有效地去除噪声,从而产生精细而清晰的分割结果。此外,我们的架构利用了文本注意机制,这对于以最佳方式分割图像中的目标对象至关重要。这种机制是专门为减轻对象大小和数量变化对分割结果的影响而设计的。通过关注相关的文本描述符,网络可以自适应地调整对目标对象相关特征的关注,确保分割的准确性和对目标属性变化的鲁棒性。

图1所示。图中展示了DTAN网络的架构,该网络被战略性地划分为两个主要部分,以优化医学图像分割。上面的部分,称为扩散UNet,用于衰减医学图像中的噪声。它采用了一个复杂的去噪模型来处理输入图像,目的是大幅提高它们的质量。这种增强对于随后的分割任务至关重要,因为它确保了图像中更精细的细节和结构得到保留和强调。网络的下部是特征提取器,它是一个精心设计的组件,用于从原始图像中识别和捕获基本特征。该设计的一个值得注意的方面是特征提取器和扩散UNet之间的共享编码器。这种共享的体系结构促进了功能的和谐集成,允许更健壮和一致的功能分析。文本注意机制是网络运行的核心。这种机制使网络能够集中在图像中最关键的区域,从而实现更准确和更集中的分割。变量f£表示通过特征增强模块(FEM)处理的特征大小数组。有限元法擅长细化不同尺度的特征,这对于适应医学图像中存在的不同尺寸和复杂性特征是必不可少的。该模块增强和集成多尺度特征的能力对网络的整体性能至关重要,确保分割不仅精确,而且全面捕获不同尺度上的每个相关细节。

3.1 扩散UNet

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http“超级应用与理解”

本篇文章来介绍一下http协议和其应用 1.http协议是在OSI模型的哪一层 HTTP(超文本传输协议)是应用层协议,它是在 OSI 模型的最高层,即第七层——应用层。HTTP 通过互联网来传输数据和信息,主要用于 Web 浏览器和 Web …

前端开发,Vue的双向数据绑定的原理

目录 一、什么是前端 二、Vue.JS框架 三、双向数据绑定 四、Vue的双向数据绑定的原理 一、什么是前端 前端通常指的是网页或应用程序中用户直接交互和感知的部分,也称为客户端。前端开发涉及使用HTML、CSS和JavaScript等技术来构建用户界面和交互功能。前端开发…

SW2000TSN-千兆百兆车载以太网TSN交换机

更多资讯可以进入官网查看或者联系我们http://www.hdn-vdo.com

【分享】JLINK的SW调试模式连线方式

大家知道,JLINK有2种调试模式:JTAG和SWD(串行模式)。 JTAG是常用模式,大家都熟悉、不废话了;如果使用SW模式,需要(只需要)4根连线,连接方式如下: …

360安全浏览器_360se15.1.1453.64_优化版_【屏蔽文件关联】

360安全浏览器15正式版(360SE15)是基于Chromium内核的双核浏览器,Chromium内核提升至114,支持Win7系统,新增夜间模式,自动模式动态切换支持IE内核.各类实用功能,安全保护技术,丰富皮肤库,风格多样化. 360安全浏览器_360se6.64位_优化版 360安全浏览器PC官方版下载丨最新版下载…

GPT-4对编程开发的支持

在编程开发领域,GPT-4凭借其强大的自然语言理解和代码生成能力,能够深刻理解开发者的意图,并基于这些需求提供精准的编程指导和解决方案。对于开发者来说,GPT-4能够在代码片段生成、算法思路设计、模块构建和原型实现等方面给予开…

进程间通信——管道

文章目录 进程间通信的介绍进程间通信的目的进程间通信的本质 匿名管道创建管道匿名管道的特征 命名管道小结 进程间通信的介绍 进程间通信简称IPC(Interprocess communication),进程间通信就是在不同进程之间传播或交换信息。 进程间通信的…

BulingBuling[Beyond the To-Do List] - 《让金钱为你服务》 [ Make Money Work for You ]

与《财务自由: 赚到足够的钱的有效方法》作者Grant的简短访谈 让钱为你工作 超越待办事项清单 主持人:Erik Fisher Make Money Work for You Beyond the To-Do List Hosted by Erik Fisher 与Erik Fisher一起探索如何确定你生活中最大的财务杠杆以及使用它们的最佳方…

在Postgresql 下安装QGIS

安装QGIS的前提是需要 在windows下安装Postgres,具体可以参考文章: Windows 安装和连接使用 PgSql数据库 安装GIS的具体步骤如下: 一.打开 Application Stack Builder 二.选择默认端口和安装目标 三.选择【Spatial Extensions】 四.选择安装…

【图像分割 2024 ICLR】Conv-LoRA

【图像分割 2024 ICLR】Conv-LoRA 论文题目:CONVOLUTION MEETS LORA: PARAMETER EFFICIENT FINETUNING FOR SEGMENT ANYTHING MODEL 中文题目:卷积满足lora:分段任意模型的参数有效微调 论文链接:https://arxiv.org/abs/2401.17868 论文代码&…

LabVIEW焊缝缺陷超声检测与识别

LabVIEW焊缝缺陷超声检测与识别 介绍基于LabVIEW的焊缝缺陷超声检测与识别系统。该系统利用LabVIEW软件和数据采集卡的强大功能,实现了焊缝缺陷的在线自动检测,具有通用性、模块化、功能化和网络化的特点,显著提高了检测的效率和准确性。 随…

c++类和对象新手保姆级上手教学(上)

前言: c其实顾名思义就是c语言的升级版,很多刚学c的同学第一感觉就是比c语言难学很多,其实没错,c里的知识更加难以理解可以说杂且抽象,光是类和对象,看起来容易,但想完全吃透,真的挺…

N-144基于微信小程序在线订餐系统

开发工具:IDEA、微信小程序 服务器:Tomcat9.0, jdk1.8 项目构建:maven 数据库:mysql5.7 前端技术:vue、ElementUI、 Vant Weapp 服务端技术:springbootmybatisredis 本系统分微信小程序和…

luigi,一个好用的 Python 数据管道库!

🏷️个人主页:鼠鼠我捏,要死了捏的主页 🏷️付费专栏:Python专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 前言 大家好,今天为大家分享一个超级厉害的 Python 库 - luigi。 Github地址:https://github.com/spotify/luigi 在大数据时代,处理海量数据已经成…

UI风格汇:毛玻璃风格风靡的原因解读

Hello,我是大千UI工场,设计风格是我们新开辟的栏目,主要讲解各类UI风格特征、辨识方法、应用场景、运用方法等,本次带来的是毛玻璃风格的解读,有设计需求可以私聊。 一、什么是毛玻璃风格 毛玻璃风格(Fros…

lazarus:LCL 嵌入 fpwebview 组件,做一个简单浏览器

从 https://github.com/PierceNg/fpwebview 下载 fpwebview-master.zip 简单易用。 先请看 \fpwebview-master\README.md cd \lazarus\projects\fpwebview-master\demo\lclembed 修改 lclembed.lpr 如下,将 fphttpapp. 注释掉,因为我用不上 a simple…

【RT-DETR有效改进】利用EMAttention加深网络深度提高模型特征提取能力(特征选择模块)

一、本文介绍 本文给大家带来的改进机制是EMAttention注意力机制,它的核心思想是,重塑部分通道到批次维度,并将通道维度分组为多个子特征,以保留每个通道的信息并减少计算开销。EMA模块通过编码全局信息来重新校准每个并行分支中的通道权重,并通过跨维度交互来捕获像素级…

Leetcode1686. 石子游戏 VI

Every day a Leetcode 题目来源:1686. 石子游戏 VI 解法1:贪心 排序 贪心的思想: 这道题模拟一个石子游戏,求解最后的比赛结果。 题目说两位玩家都会采用 最优策略 进行游戏,那么关键点就在于什么是最优策略&…

Swift Combine 合并多个管道以更新 UI 元素 从入门到精通十七

Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者 从入门到精通二Swift Combine 管道 从入门到精通三Swift Combine 发布者publisher的生命周期 从入门到精通四Swift Combine 操作符operations和Subjects发布者的生命周期 从入门到精通五Swift Com…

centos中docker操作+安装配置django+mysql5.7并使用simpleui美化管理后台

一、安装docker 确保系统是CentOS 7并且内核版本高于3.10,可以通过uname -r命令查看内核版本。 更新系统软件包到最新版本,可以使用命令yum update -y。 安装必要的软件包,包括yum-utils、device-mapper-persistent-data和lvm2。使用命令yum install -y yum-utils devic…