LUCF-Net:轻量级U形级联 用于医学图像分割的融合网络

LUCF-Net:轻量级U形级联 用于医学图像分割的融合网络

  • 摘要
  • Introduction
  • Related Work
  • Proposed Method
    • Local-Global Feature Extraction
    • Encoder and Decoder
    • Feature Fusion
    • Loss Function

LUCF-Net: Lightweight U-shaped Cascade
Fusion Network for Medical Image Segmentation

摘要

在本研究中,通过添加Transformer,作者增强了现有U型神经网络架构在医学图像分割中的性能。尽管Transformer架构在提取全局信息方面非常强大,但由于其高复杂性,其在捕捉局部信息方面的能力有限。

为了应对这一挑战,作者提出了一种新的轻量级U型级联融合网络(LUCF-Net)用于医学图像分割。它采用了不对称的结构设计,并结合了局部和全局模块,以增强其在局部和全局建模方面的能力。

此外,还设计了一个多层级联融合解码网络,以进一步增强网络的信息融合能力。在CT格式的多器官数据集、MRI格式的心脏分割数据集以及图像格式的皮肤病学数据集上的验证结果表明,所提出的模型在处理局部-全局信息方面优于其他最先进的方法,在多器官分割上的Dice系数提高了1.54%,Hausdorff距离提高了2.6毫米。

此外,作为一个结合了卷积神经网络和Transformer架构的网络,它在使用仅有6.93百万个参数和6.6GB浮点运算的情况下,实现了具有竞争力的分割性能,无需预训练。总之,与其它基于Transformer的分割网络相比,所提出的方法在保持模型设计更简单的同时,展示了增强的性能。

Introduction

在医学图像分析领域,人工智能被认为是构建计算机辅助诊断应用的实际方法,尤其在图像分割方面。在这些基于人工智能的应用中,图像分割在促进疾病诊断和治疗策略制定方面起着关键作用。随着深度学习方法快速进步,卷积神经网络(CNN)和Transformer已成为近年来医学辅助分析研究的两个主要方向。这两种方法各有优势,为解决复杂的医学图像分割挑战提供了新的机遇。仅由带有上采样、下采样和跳跃连接的CNN组成的U-Net,在不同领域展示出了令人印象深刻的性能,同时保持了极小的复杂性。它在分割多个器官和皮肤病变等任务中表现出色,巩固了其在医学图像分割领域的独特地位。

然而,在医学图像分析中应用CNN仍存在挑战[5]。医学图像通常包含跨越大范围区域的丰富上下文信息,捕捉图像的整体结构、形状和分布。这种全面的视角对于精确诊断和治疗计划至关重要,要考虑到器官或组织内的整体布局、大小和空间关系等因素。利用这些远距离依赖,可以实现更准确和详细的医学图像分析。CNN在有效捕捉远距离相关性方面可能存在局限性,可能导致忽视全局信息,影响分割准确性。为了解决这个问题,利用自注意力机制Transformer模型受到了广泛关注。其出色的长距离依赖建模能力被引入到计算机视觉中,在图像分割任务中展示了显著成就。

与CNN相比,Transformer在某些医学图像领域方面具有优势。首先,Transformer可以捕获图像中像素间的全局依赖性,从而更好地理解整体结构。其次,Transformer可以提供更高的灵活性。传统的CNN模型通常需要手动设计网络结构,而Transformer模型可以通过简单的修改(如增加或减少层或头)来适应不同的任务。

因此,Transformer模型在处理各种视觉任务时更加灵活。尽管与CNN相比有这些优势,但Transformer有一个致命的缺陷[8]:基于Transformer的网络计算效率通常远低于CNN网络,导致计算成本高昂。因此,如何高效利用Transformer模型成为一个关键问题。

为了进一步提高医学图像分割的性能,研究行人开始探索结合CNN和Transformer的方法[9]。通过整合每种方法的优点,有可能改善医学图像中复杂属性和远距离依赖的处理,最终以降低模型复杂性的方式得到更准确和可靠的分割结果。然而,早期研究在结合CNN和Transformer时,只是简单地将它们合并在一起,而没有从根本上解决Transformer网络的复杂性问题。

在本研究中,受EdgeViTs的启发,提出了一种基于局部-全局特征级联的不对称CNN-Transformer网络。它在下采样后引入了 Patch 状自注意力,以实现局部和全局特征提取,同时显著降低了网络复杂性。通过在U形网络编码器中构建一个有效的局部-全局特征提取模块,使得由CNN提取的局部特征与由Transformer提取的全局特征有效整合。

本研究主要提供以下贡献:

通过将一个有效的局部-全局特征提取模块集成到U形网络编码器中,使源自CNN的局部特征与由Transformer提取的全局特征无缝整合。
设计了一种不对称的U形网络架构,以减少模型复杂性。在解码器中进行多层特征融合,并在训练过程中逐层计算损失,这加速了网络的收敛速度并增强了网络融合局部和全局信息的能力。
采用多种损失函数的新组合来解决数据集样本不平衡的问题,并通过在线硬样本学习策略进一步提高分割准确性。

Related Work

CNN-based Networks
早期医学图像分割方法大多采用纯卷积神经网络(CNN)结构。U-Net无疑是在这个领域的一个开创性工作。它结合了解码器、编码器和跳跃连接,为U形网络架构奠定了基础。在U-Net被提出之后,基于U-Net的各种方法也被引入。Diakogiannis等人使用了U-Net的编码器/解码器主干,并结合残差连接、孔洞模型、金字塔场景解析池和多任务推理来实现ResUNet-a模型,从而在保留U-Net的图像分割架构的同时,增强了特征传播和学习能力。通过实现一个注意力门控模块,Thomas等人能够利用特征图来捕捉全局信息,从而改进长距离依赖建模,增强了U-Net。

Do等人结合了全局方法和基于 Patch 的方法,利用多级距离特征实现全局信息建模。Guan等人融合了密集网络的概念,将每个解码器层的特征与之前的编码器层连接起来,以实现更鲁棒的特征传播。在改进版本如UNet++、IR-UNet++和UNet3+ 中,利用跳跃连接、多级特征融合和上采样结构,进一步增强了模型的信息传播和特征提取能力。在三维医学图像分割中,基于3D卷积的3D-UNet和VNet被引入,使得医学图像分割网络适用于体数据。上述基于CNN的方法主要采用多层特征融合、注意力机制等技术来弥补CNN网络在全局建模能力上的固有局限。因此,这些方法在一定程度上有助于性能的提升。

Transformer-based Networks
Transformer最初在自然语言处理(NLP)领域被引入,并以捕获广泛相互依赖性的卓越能力而闻名。Dsosovitskiy等人将Transformer的使用扩展到计算机视觉领域,通过将图像分割成 Token 以在Transformer网络中使用。这一突破极大地增强了网络提取全局特征的能力。作为一个开创性的尝试,TransUNet将Transformer集成到U形网络架构中。它不仅通过将图像特征编码为序列来编码强全局上下文,还通过U-Net混合网络设计充分利用低级CNN特征。Cao等人进一步结合了Swin Transformer,用Transformer网络替代了解码器和编码器,生成了一个纯Transformer U形网络来修复CNN网络在全局特征上的不足。

同样,DS TransUNet 采用密集网络构建了一个基于TransUNet基础的密集连接纯Transformer U形网络。面对Transformer固有的计算限制,越来越多的研究者开始研究更有效的基于Transformer的U-Net架构。Huang等人 提出了MISSFormer,它重新设计了编码器结构中的前馈网络,便于更高效地提取局部和全局上下文特征。Reza等人引入了DAEFormer,它重新定义了自注意力机制和跳跃连接路径。这种方法保证了在整个特征维度上包含空间和通道连接,保持了特征的可重用性,从而降低了自注意力机制的计算负担。大多数基于Transformer的U-Net架构要么结合CNN和Transformer,要么仅采用纯Transformer结构。

这些方法要么没有考虑到CNN在局部特征提取中的作用,要么使用CNN进行局部特征提取和Transformer进行全局特征提取,对来自CNN网络的特征执行自注意力操作,而没有解决Transformer自注意力机制的计算成本问题。尽管它们设法保持了某种程度的局部和全局特征建模,但往往伴随着高计算成本和模型参数。平衡网络性能和大小成为一项具有挑战性的任务。鉴于这些考虑,作者致力于构建一个高效的CNN-Transformer U形网络。

Proposed Method

在这里插入图片描述
图1展示了LUCF-Net的完整结构,它采用了一个非对称的CNN-Transformer U形框架。核心组件是局部-全局特征提取模块(LG Block),它与编码器的下采样结构无缝集成。关于每个组件的详细信息将在后续章节中描述。

Local-Global Feature Extraction

在医学图像处理中,模型的全球建模能力在整体特征提取能力中扮演着关键角色。研究者们已经证实自注意力在处理图像的全局背景或长距离空间依赖性方面的重要影响[33]。然而,自注意力必须处理图像内部的大量空间冗余,例如在邻近区域中语义上相似的特征[34]。

因此,即使在降采样特征图上考虑所有标记也可能导致效率低下,浪费大量计算资源。为了在保留全局和局部上下文信息的同时减轻这一挑战,EdgeViTs提出了一种新颖的方法来处理这个问题。与在每一个空间位置执行自注意力的传统 Transformer 块不同,其自注意力模块仅针对一组标记子集计算自注意力。
在这里插入图片描述
尽管如此,它仍能实现类似于标准多头自注意力的全面空间交互。受到这种方法的启发,作者无缝地将稀疏自注意力集成到U形网络中。这种集成使作者能够在降低计算需求的同时,增强模型的局部-全局建模能力。

为了实现这一点,作者提出了一个名为LG Block的局部-全局特征提取模块,如图2所示。它接收传入的特征信息,并启动局部特征聚合操作,将信息汇聚到局部窗口中。随后,在通过均匀窗口采样获得的标记上执行注意力操作。最后,通过使用转置卷积的邻域扩散,传播来自注意力操作的全球上下文信息。该模块的公式描述如下:
在这里插入图片描述

Encoder and Decoder

在编码器部分,初始输入图像经过两个卷积层,随后进行下采样。在此过程之后,原始输入的分辨率减少了一半,而通道数相应增加。随后,下采样的图像被输入到LG块中,在那里执行自注意力操作。这个序列在四层卷积下采样和四个LG块中重复。解码层仅使用卷积和上采样操作。

同样,对于每一层卷积和上采样,图像分辨率都会翻倍。这个过程通过四层上采样层重复,产生与原始输入相匹配的图像尺寸。需要强调的是,解码器部分不使用LG块,通过使用跳跃连接和多层级联模块,可以在编码器中融合局部和全局层次的信息,从而避免了在解码器中使用Transformer,并减少了模型大小。

Feature Fusion

传统的U-Net网络通常使用解码侧的最后一层作为综合网络输出,并在训练过程中计算损失。为了在多尺度图像输出情况下提高分割效果,通过跳跃连接将来自不同编码器层的多尺度信息整合到解码器中,以增强架构。解码器中每层的上采样输出都输入到独立的解耦头中。这个解耦头对应于图1中的CIE头,它将不同尺度的图像协调成一致的输出大小。

CIE头使用双线性插值操作,这与解码器上的上采样操作相同。在训练过程中,作者通过比较每层的输出及其相应的标签来计算损失。最终输出是四个不同阶段的输出的总和。这种结构通过多级级联加强像素间的空间关系,加速训练期间模型的收敛。

Loss Function

在医学图像分割中,交叉熵损失和Dice损失是最常用的损失函数[25]。Dice系数是在视觉计算领域中广泛使用的一个度量标准,用于测量两张图像之间的相似性。然而,Dice损失在训练过程中表现出显著波动,因此,它经常与交叉熵损失函数结合使用。

在这里,作者引入了Lovasz Softmax损失[35]来替代Dice损失。作者做出这一选择是因为这个损失也直接优化基于区域的指标。它是一个凸函数,确保在训练过程中不会陷入局部最小值。此外,Lovasz Softmax损失在处理目标边界像素方面表现良好,避免了模糊边缘的产生。Lovasz Softmax损失源自Jaccard指数损失的一个变体,其类别可以表示为以下公式:
在这里插入图片描述
在这里, g i g_i gi p i p_i pi 分别表示第 i i i 个像素的标签和网络预测, c c c 是类别, M M M 是批次中的像素数。公式 (5) 是一个离散函数,不适合直接优化损失。Lovasz 扩展被用于使 Jaccard 指数损失可微,从而将离散输入值转换为连续值。在这里,KaTeX parse error: Expected group after '^' at position 6: f_i(p^̲%) 是网络在类别 c c c 上的输出概率分布,由 Softmax 函数得到。 e i ( c ) e_i(c) ei(c) 是类别 c c c 的像素误差,向量 e ( c ) e(c) e(c) 是类别 c c c 的 Jaccard 指数的替代。 △ J △J J 是 Jaccard 指数的 Lovasz 扩展。
为了减轻数据集中的样本不平衡问题,引入了在线困难样本挖掘(OHEM)损失函数[36]。在深度学习模型的训练中,这种损失函数策略用于解决由类别分布不平衡引起的问题。OHEM损失的目的在于关注难以分类的样本,鼓励模型更好地学习困难情况,从而提高整体性能。

在训练阶段,OHEM损失的核心思想是从批量中选择难以分类的样本进行反向传播。这有效地引导模型关注具有挑战性的实例,帮助模型更好地区分不同类别。自然地,作者将OHEM损失函数中困难样本的定义扩展到像素 Level 。对于每组训练批量,初始损失函数计算当前批次中所有像素训练的平均交叉熵损失。

基于交叉熵损失,OHEM损失公式可以表述为:
在这里插入图片描述
在这里, L o r g L_{org} Lorg l i l_{i} li 分别代表所有像素的损失和与所选困难像素相关的损失。变量 K K K 表示困难像素的数量,这些像素是通过过滤掉置信度低的预测像素来确定。OHEM损失选择了这些置信度低的像素并计算它们的平均交叉熵损失。随后,困难像素的平均损失与所有像素的平均交叉熵损失进行聚合。

总之,作者的混合损失可以按如下方式确定:
[ loss = 0 × l h o u s e + ( 1 − c ) × l O H E M ] [ \text{loss} = 0 \times l_{house} + (1 - c) \times l_{OHEM} ] [loss=0×lhouse+(1c)×lOHEM]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android zxing库实现扫码识别

第一步 加库zxing库 //导入二维码识别库ZXingimplementation("com.journeyapps:zxing-android-embedded:4.2.0") 第二部获取摄像机权限 <uses-permission android:name="android.permission.CAMERA" /><uses-permission android:name="andro…

【日常记录】【CSS】利用动画延迟实现复杂动画

文章目录 1、介绍2、原理3、代码4、参考链接 1、介绍 对于这个效果而言&#xff0c;最先想到的就是 监听滑块的input事件来做一些操作 ,但是会发现&#xff0c;对于某一个节点的时候&#xff0c;这个样式操作起来比较麻烦 只看这个代码的话&#xff0c;发现他用的是动画&#x…

超详细!Python中 pip 常用命令

相信对于大多数熟悉Python的人来说&#xff0c;一定都听说并且使用过pip这个工具&#xff0c;但是对它的了解可能还不一定是非常的透彻&#xff0c;今天小编就来为大家介绍10个使用pip的小技巧&#xff0c;相信对大家以后管理和使用Python当中的标准库会有帮助。 安装 当然在…

【算法一则】编辑距离 【动态规划】

题目 给你两个单词 word1 和 word2&#xff0c; 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作&#xff1a; 插入一个字符 删除一个字符 替换一个字符 示例 1&#xff1a;输入&#xff1a;word1 "horse", word2 "…

16 - Debian如何配置vsftpd(1)实现匿名上传下载

作者&#xff1a;网络傅老师 特别提示&#xff1a;未经作者允许&#xff0c;不得转载任何内容。违者必究&#xff01; Debian如何配置vsftpd&#xff08;1&#xff09;实现匿名上传下载 《傅老师Debian小知识库系列之16》——原创 前言 傅老师Debian小知识库特点&#xff1a…

微信小程序获取蓝牙信标

/*** 搜索设备界面*/ import Dialog from vant/weapp/dialog/dialog; Page({data: {list: []},onPullDownRefresh: function () {wx.request({url: https://wwz.jingyi.icu/app/Explain/index,data: {scenic_id: 3},method: POST,success: (res) > {console.log(res);let th…

重磅!国内首个基于单张图片的3D人脸重建课程

3D人脸重建在计算机视觉和图形学中一直是一个经典且热门的研究方向&#xff0c;在游戏、影视、娱乐等众多行业也有着广泛的应用。早期人脸重建主要基于多视角相机或深度相机&#xff0c;随着深度学习的兴起&#xff0c;基于单张图片的人脸重建成为可能&#xff0c;且重建的精度…

数学建模---Matlab学习笔记

1.经典例题 &#xff08;1&#xff09;判断质数 给定一个大于100的数字&#xff0c;判断是否为质数 先设定布尔值是true,也就是假设这个数字是质数&#xff0c;利用for循环进行遍历直到n-1&#xff0c;如果被任意的数字整除&#xff0c;就说明不是质数&#xff0c;我们就把布…

2024 年排名前 5 的 CSS 框架

文章目录 1、Bootstrap2、Tailwind CSS3、Foundation4、Bulma5、UIKit 1、Bootstrap Bootstrap框架是由Twitter的设计师Mark Otto和Jacob Thornton合作开发的&#xff0c;于2011年8月在GitHub上发布。它是目前最受欢迎的前端框架之一&#xff0c;被广泛应用于各种Web项目中。Bo…

最新Latex2024安装教程 超简单

Latex是一款常用的论文写作工具&#xff0c;今天小菜介绍Latex的安装配置过程。 1. 来到官网下载镜像文件 https://www.tug.org/texlive/ 按步骤点击&#xff1a; 就会进入一个最近的镜像网站&#xff0c;选择textlive2024.iso即可 下载完成之后解压&#xff0c;安装路径…

Linux02(项目部署,手动和自动部署,JDK版本问题,安装软件,安装软件,安装JDK,Tomcat,MySQL,Irzsz)

目录 一、安装软件 1. 安装准备工作 1 Linux里的软件安装方式 2 上传软件到Linux 3 拍照虚拟机快照 2. 安装JDK 1 卸载自带jdk 2 解压JDK 3 配置环境变量 4 测试JDK 3. 安装Tomcat 1 解压Tomcat 2 修改防火墙设置 3 测试Tomcat 启动Tomcat 访问Tomcat 查看Tom…

git 小记

一、 github新建仓库 git clone 。。。。。。。。。。。 &#xff08;增删查补&#xff0c;修改&#xff09; git add . git commit -m "修改” git push (git push main) 二、branch 分支 branch并不难理解&#xff0c;你只要想像将代码拷贝到不同目录…

MongoDB的CURD(增删改查操作)

读者大大们好呀&#xff01;&#xff01;!☀️☀️☀️ &#x1f525; 欢迎来到我的博客 &#x1f440;期待大大的关注哦❗️❗️❗️ &#x1f680;欢迎收看我的主页文章➡️寻至善的主页 ✈️如果喜欢这篇文章的话 &#x1f64f;大大们可以动动发财的小手&#x1f449;&#…

刷代码随想录有感(34):前k个高频元素

本题代码涉及到了多个陌生概念&#xff0c;题干如下&#xff1a; 代码; class Solution { public:class mycomparison{//自定义规则&#xff0c;使优先队列可以自动排序public:bool operator()(pair<int, int> & lhs, pair<int, int> & rhs){return lhs.s…

第十五届蓝桥杯大赛软件赛省赛 C/C++ 大学 B 组(基础题)

试题 C: 好数 时间限制 : 1.0s 内存限制: 256.0MB 本题总分&#xff1a;10 分 【问题描述】 一个整数如果按从低位到高位的顺序&#xff0c;奇数位&#xff08;个位、百位、万位 &#xff09;上 的数字是奇数&#xff0c;偶数位&#xff08;十位、千位、十万位 &…

如何保障UDP传输中数据文件不丢失?

UDP协议因其低时延和高速传输的特性&#xff0c;在实时应用和大量数据传输领域中发挥着不可或缺的作用。但是&#xff0c;由于UDP是一种无连接的通讯协议&#xff0c;它并不确保数据包的顺序、完整性和可靠性。 为了解决UDP传输中数据一致性的问题&#xff0c;技术专家们进行了…

【Linux系统编程】第四弹---基本指令(二)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、echo指令 2、cat指令 3、more指令 4、less指令 4、head指令 5、tail指令 6、时间相关的指令 7、cal指令 8、find指…

Wix在国内受限?为何不使用中国版WIX自助建站,wix的国产替代工具

wix是一款知名的在线网站建站工具&#xff0c;能让用户在其网络上网站编辑器中拖放工具创建HTML5网站。用户可在他们的网站编辑器中加入额外的功能&#xff0c;例如社交网络按钮、电子商务功能、联系表格、电子报及社群论坛等。 但wix在国内不能用&#xff0c;或打开速度很慢&a…

npm命令卡在reify:eslint: timing reifyNode:node_modules/webpack Completed in 475ms不动

1.现象 执行npm install命令时&#xff0c;没有报错&#xff0c;卡在reify:eslint: timing reifyNode:node_modules/webpack Completed in 475ms不动 2.解决办法 &#xff08;1&#xff09;更换淘宝镜像源 原淘宝 npm 域名http://npm.taobao.org 和 http://registry.npm.ta…

git clone自动安装最新版本,如何选择安装自己想要的其他版本,最简单解决方法

比如本人最新在安装 git clone https://github.com/synthetik-technologies/blastfoam.git 本人想要其中的3.0版本&#xff0c;但是上面git clone默认是使用最新版本6.2.0 这时候可以先执行 git clone https://github.com/synthetik-technologies/blastfoam.git 然后由…