FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用

代码链接:GitHub - Rubics-Xuan/FreMIM: This repo holds the official code for the paper "FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation".

论文链接:https://arxiv.org/abs/2304.10864

收录于 WACV2024

摘要

研究界已经见证了自监督蒙面图像建模(MIM)的强大潜力,它使模型能够从未标记的数据中学习视觉表示。为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。在三个基准数据集上进行的大量实验表明,我们的FreMIM比以前最先进的MIM方法具有优越的优势。与从头开始训练的各种基线相比,我们的FreMIM可以持续地为模型性能带来相当大的改进。

背景

Masked Autoencoders (MAE)[26],它通过掩盖图像中的部分区域并重建它们来预训练模型。MAE仅将原始像素作为重建目标,主要依靠局部特征表示,而没有充分利用全局信息。

因此,为了在训练样本有限的情况下充分发挥基于mima的医学图像分割方法的潜力,如何在获取全局信息的同时尽可能保留详细的局部特征成为关键问题。

正如之前的许多研究[5,7,14,30,45]所示,详细的纹理信息主要存在于高频分量中,低频分量中包含丰富的全局信息。根据这一观察,一个直观的解决方案将是探索MIM与傅里叶变换相结合的强大潜力。

由于同一器官的医学图像本质上对应相似的特征,我们进行了困难的跨域重建任务,避免了走捷径的学习,实现了较强的表征能力。

同时,借鉴前人[49]的研究结果,即详细的结构信息主要存在于高频分量中,而低频分量中具有丰富的高级语义,本文提出的双边聚合解码器对原始图像依次进行傅里叶变换,并在变换后的傅里叶谱上使用低/高通滤波器,得到预期的重构目标。

相关工作

Masked Image Modeling

通过重建图像的被屏蔽部分,模型可以学习到有利于各种视觉下游任务的信息特征表示。

之前使用的随机掩蔽策略是粗糙的,可能会在无用的背景上造成计算浪费。考虑到医学图像中信息前景和无用背景的区分,我们设计了前景像素之间的掩蔽策略,以获得更有效的掩蔽,帮助模型更好地进行表征学习。此外,我们的方法可以摆脱对特定模型结构的预训练范式的依赖,并持续提高模型性能,这与以往的工作不同(例如,Swin Transformer和基于cnn的模型不能直接与MAE集成)。

Fourier Transform

[43]利用快速傅里叶变换(Fast Fourier Transform, FFT)替代原始Transformer中的自关注模块,以较低的计算成本成功获取全局信息。[29]为傅里叶频谱监督设计了一种新的焦频率损失,以提高流行的图像生成模型的性能

我们对原始图像进行随机掩码,重建图像频域中的傅里叶谱去帮助模型以跨域掩码重建的方式学习更广义的全局表示此外,还提出了结合FFT特定特性(即高通和低通频率分量)的多级监督,以更好地指导不同阶段之间的模型表示学习。

贡献

1) 我们首次研究了在医学图像分割任务中利用频域掩膜图像建模的强大潜力。被提议的
FreMIM是一个通用的自监督预训练框架,可以与不同的模型体系结构集成
(即cnn和transformer)。

2)通过设计一个多阶段监督方案和一个设计良好的双边聚合解码器,我们提出了一种新的跨域掩码重建框架,用于掩码图像建模范式。

3)提出了一种简单而有效的前景像素间(foreground pixels)masking 策略,作为原始随机掩蔽像素策略的更好替代方案,为后续的自监督表示学习提供更精确和信息丰富的掩蔽

方法

Preliminary: Fourier Transform

由于离散傅里叶变换(DFT)在我们提出的方法中起着至关重要的作用,我们首先简要回顾了作为传统信号分析不可或缺的技术的二维DFT。给定一个2D信号F∈RW×H,其对应的2D- dft可以定义为:

其中F(h,w)表示位于F中(h,w)的信号,u和v是傅里叶频谱中水平和垂直空间频率的指标。相应的,二维逆DFT (2D- IDFT)表示为:

DFT和IDFT都可以使用它们的快速版本FFT算法进行加速[39]。对于具有多种模态的医学图像,傅里叶变换在每个通道上独立进行。此外,如先前的研究[5,7,14,30,45]所示,图像的详细结构纹理信息主要存在于傅里叶谱的高频部分,而全局信息则丰富于低频部分。图2展示了这一有趣特征的可视化。

The Proposed FreMIM

Overall Architecture

给定空间分辨率为H×W和C通道(模态数)的输入医学图像切片X∈RC×H×W,首先对原始图像采用所提出的前景掩蔽策略生成掩蔽图像。然后,通用编码器(即根据各种预训练要求,cnn和Transformers编码器都可以很容易地集成到我们的框架中)将被屏蔽的图像作为输入,通过分层结构捕获被屏蔽的视觉特征。然后,将不同阶段的编码特征表示联合馈送到我们精心设计的双边聚合解码器中,逐渐产生具有低级细节信息和高级语义表示的重构傅立叶谱。

通过顺序应用傅里叶变换在原图片上,在转换后的傅里叶频谱上采用低/高通滤波器获取期望重建目标,将重建损失应用于重建频谱与期望低/高通频谱目标的相似度,实现端到端低阶和高阶表示的有益多阶段监督方案。

Masking Strategy

医学图像的前景和背景像素分布极不平衡。因此,随机选择医学图像的空间位置,不可避免地会导致生成的掩模大部分覆盖背景像素,保留了太多物体的前景像素,不利于模型的重建能力。
为此,我们提出了一种简单而有效的前景掩蔽策略来解决这种不均匀分布问题。

具体来说,给定一个初始化为零的二进制掩码M∈{0,1}H×W,其在每个空间位置的值取决于对应的像素值是否属于前景。如果一个像素属于前景区域,在自监督预训练中,它将被滤除作为被遮罩的候选点之一。

由于医学图像通常由不同的通道组成,每个通道强调不同的前景区域,因此我们将它们的重叠部分作为最终的掩码区域。整体前景掩蔽策略可以定义为↓,式中⊙为Hadamard积,Pn(x, y)表示对应位置(x, y)的特定像素值,Mn表示生成的特定图像模态Mn的掩模。

M和XM分别表示原始图像的最终掩码,以及将被掩码后的图像馈入模型进行后续重建任务。

 

Generic Encoder

至于我们框架中编码器的选择,由于我们的逐像素前景掩蔽策略,FreMIM不限于任何特定类型的结构。网络编码器以上述掩膜图像为输入,对掩膜图像切片进行分层结构的逐步编码,产生不同层次(即从底层细节信息到高层语义)的特征表示。

Multi-stage Supervision Scheme

对有效SSL范例的期望是引导可视化主干通过分层结构学习不同级别的所需表示。根据这种直觉,我们提出设计一个多阶段监督方案,以充分监督分层阶段的表示学习。

图像的高阶和低阶信息分布在傅里叶谱的不同频段。因此我们提出分别利用低通和高通傅里叶频谱作为监督信号(即重构目标)。最直观的方法之一是利用相同的高通傅立叶谱直接监督多个low level stages ,反之亦然。然而,这种直观的方式主要有两个缺点。一方面,违背了模型在各个低级阶段学习的初衷,因为不同低级阶段学习到的特征表征自然不应该是相同的,而应该是不同的。另一方面,这种监督方法过于直接和简单,没有充分利用层次结构捕获的多阶段特征之间的相关性来帮助模型更好地执行MIM pretext 任务。

为此,我们提出了一种设计良好的双边聚合解码器 bilateral aggregation decoder,以更好地解决频域重构任务,进一步帮助编码器学习更广义、更有意义的特征表示。具体而言,在所提出的双边聚合解码器内部,将不同阶段的编码特征分别以自下而上和自上而下的方式收敛到最低阶段(即最大空间分辨率)和最高阶段(即最小空间分辨率)。换句话说,BAD将不同阶段的特征图分别聚合为最低和最高分辨率。具体来说,对于ViT,第4层、第8层和第12层的特征映射分别上采样8次、4次和2次,然后按照UNETR中的反卷积模块馈送到BAD。为了明确起见,每个相邻阶段的捕获特征将被馈送到卷积块中,以实现空间分辨率和通道维度的严格对齐,可以表示为↓其中Ahigh和allow分别表示双边聚合的高级和低级特征表示,C、Dc和Cat分别表示卷积块、反卷积块和拼接操作,Si表示阶段i输出的特征映射。

然后,通过引入的频率映射块(如图3所示),将最低级和最高级的聚合特征表示映射到频域,然后通过低通和高通滤波器,得到所采用重构损失对应的高通和低通预测谱。具体来说,频率映射块(FMB)由2D-DFT、频域感知器(FDP)和2D-IDFT组成,其计算公式为↓ 其中DFT和IDFT分别表示快速傅里叶变换和快速傅里叶反变换。W和b都是可学习的参数,⊙是哈达玛积。通过这种方式,利用傅里叶变换的独特特性,构建了一个强大的SSL跨域重建框架。

 

虽然这样的跨域重建任务比域内重建任务更加困难,但它也可以帮助模型学习更鲁棒的特征表示

Pre-training Strategy

Frequency Loss

为了缓解不同频带频谱间的权重不平衡,便于对困难频带进行重构,我们采用焦频损失[29]作为损失函数lfrequency,对低频和高频映射进行权重梯度更新,定义为↓式中f(u, v)为空间频率坐标(u, v)的预测2D-DFT,而f^(u, v)为其对应的Ground truth。γ(f, f^)计算实际值和预测值之间的欧几里得距离的平方作为它们的频率距离。

ω是给定位置的频谱权矩阵,它抑制了简单频率的权值。计算公式如下,其中β是灵活性的缩放因子(默认β=1)。

Overall Loss

在预训练期间,我们的FreMIM通过从高通和低通频率中求解内容格式塔来学习表示:式中FH和FL分别为高通和低通频率滤波器。T表示原始图像。如图3所示,P low由最高级得到,而P high则相反。α是高级语义信息分支的权重(默认α = 3)。

实验

数据集:

BraTS 2019, [2,3,36],

ISIC 2018 [16,48] 

ACDC 2017

实验结果

总结

在本文中,我们首次研究了基于频域的MIM在医学图像分割任务的预训练深度学习模型上的强大潜力。针对二维医学图像分割问题,提出了一种利用傅里叶谱中丰富的全局信息和局部细节的新框架FreMIM。不同于以往MIM方法的传统范式,在频域实现重构使框架具有更强的表示学习能力。此外,多阶段监督方案充分利用了不同频段所包含的特定特性,大大提高了分割性能。在三个基准数据集上进行的综合实验,定量和定性地验证了我们的FreMIM的有效性,显著提高了从头训练的基线分割性能,并显示出优于最先进的自监督方法的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/741905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

差旅补助解决方案|数字化差补赋能业务提效

长期以来,差旅补助一直是企业为了激励员工出差并表达对员工的关怀而采取的一种方式,以经济和福利支持来鼓励员工积极投入工作。然而,由于传统差旅补助的核算、发放和管理方式存在诸多问题,往往适得其反,无法实现企业的…

RocketMQ 面试题及答案整理,最新面试题

RocketMQ的消息存储机制是如何设计的? RocketMQ消息存储机制的设计原理: 1、CommitLog文件: 所有的消息都存储在一个连续的CommitLog文件中,保证了消息的顺序写入,提高写入性能。 2、消费队列: 为每个主…

MySQL row_number()函数,rank()函数和dense_rank()函数

从MySQL8.0开始引用row_number(), rank()函数和dense_rank()函数,也就是常见的窗口函数,三个函数都是一种用于计算排名的工具,它们根据指定的列对结果集进行排序,并为每一行分配一个排名值(1,2,3,...)。 函…

【漏洞复现】网康科技 NS-ASG 应用安全网关 SQL注入漏洞(CVE-2024-2330)

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

(自用笔记)每天一点vue3—— echarts横坐标刻度标签显示不完全的问题

我是想做一个vue3echarts的账单数据展示项目,因为有vue2的基础,打算直接在这个项目上熟悉掌握vue3的新特性。这系列笔记就按照遇见问题解决问题的思路更新,不按照官方快速上手的章节,特此说明。 echarts 上次遗留一个横坐标刻度标…

strcat函数

函数理解记忆&#xff1a;str表示是<string.g>中的函数&#xff0c;cat表示附加。意思是将一个字符串的内容附加到另一个字符串的末尾。 注意要点&#xff1a;既然要附加&#xff0c;附加的字符串和被附加的字符串都要有\0。否则不知道附加多少&#xff0c;不知附加在哪…

免费视频背景素材下载

找免费视频素材、背景就上这6个网站&#xff0c;高质量&#xff0c;无版权可商用。 1、菜鸟图库 https://www.sucai999.com/video.html?vNTYwNDUx 菜鸟图库虽然是个设计素材网站&#xff0c;但除了设计类素材之外还有很多视频、音频、办公类等素材&#xff0c;视频素材就有上…

前端实现复制粘贴功能

在前端开发的世界里&#xff0c;复制粘贴功能就像是那个总是被忽视&#xff0c;却在关键时刻能救你一命的老朋友。我们习惯了用那些古老的魔法咒语&#xff08;document.execCommand(copy)&#xff09;来实现这一功能&#xff0c;但时代在进步&#xff0c;技术在更新&#xff0…

Frostmourne - Elasticsearch源日志告警配置

简介 配置Frostmourne 接入Elasticsearch源进行日志匹配告警&#xff0c;并静默规则&#xff0c;告警消息发送到企业微信&#xff0c;告警信息使用Markdown。 部署安装教程查看&#xff1a; https://songxwn.com/frostmourne_install ELK 安装教程&#xff1a;https://songx…

综合实验---Web环境搭建

题目&#xff1a; 服务器IP地址规划&#xff1a;client&#xff1a;12.0.0.12/24&#xff0c;网关服务器&#xff1a;ens36:12.0.0.1/24、ens33&#xff1a;192.168.10.1/24&#xff0c;Web1&#xff1a;192.168.10.10/24&#xff0c;Web2&#xff1a;192.168.10.20/24&#xf…

pcl弧度角度换算:rad2deg,deg2rad

角度弧度换算公式: 代码及结果在:cmath 中cos sin等常用函数的坑(弧度角度换算)-CSDN博客 pcl也有自带的rad2deg,deg2rad: 头文件 #include<pcl/common/angles.h> 代码如下 #include <iostream> #include<pcl/common/angles.h> int main() {vector<…

3/13/24运算符、补码、整型、浮点型、汇编

目录 三目运算符 逗号运算符 自增自减运算符 位运算 运算符优先级 补码讲解 整型解析 溢出解析 浮点数IEEE754标准解析 浮点数精度丢失 真题 汇编指令 生成汇编方法 常用指令 三目运算符 条件运算符是C语言中唯一的三目运算符。通过判断问号之前的表达式的真假&…

【随笔记】小程序轮播图,一屏显示三个swiper-item

常见的轮播是一屏显示一个swiper-item,有的时候需要一屏显示三个swiper-item,左右两边都显示出一点 【目前小程序基础库2.12.3 效果正常,3.几的效果会有点不正常】 效果图 wxml <!-- 轮播begin --> <swiper wx:if="{{up_down}}" class="card-swipe…

【C++】thread 头文件无法正常使用问题

问题 当我使用MinGW GCC&#xff0c;在windows上编写C程序的时候&#xff0c;使用thread类会无法编译&#xff0c;有如下错误&#xff1a; 我使用的是c17 这个问题原因是MinGW GCC当前仍缺少标准C 11 及以上版本线程类的实现。 解决方案 Stackoverflow上的类似问题: 传送门…

a-table:实现跨域多选功能——基础积累

table组件跨页多选功能&#xff1a; html部分的代码&#xff1a; <a-tablesize"small"style"margin-top: 10px"rowKey"id":columns"columns":dataSource"dataSource":pagination"pagination":loading"l…

零基础自学C语言|自定义类型:联合与枚举

✈联合体 &#x1f680;联合体的类型声明 像结构体一样&#xff0c;联合体也是由一个或者多个成员构成&#xff0c;这些成员可以不同的类型。 但是编译器只为最大的成员分配足够的内存空间。联合体的特点是所有成员共用同一块内存空间。所以联合体也叫&#xff1a;共用体。 给…

机试:计算第几天

问题描述: 代码示例: //计算第几天 #include <bits/stdc.h> using namespace std;int main(){cout << "输入样例" << endl; int year;int month;int day; cin >> year >> month >> day;int months1[12] {31,28,31,30,31,30,3…

Java错误:微服务报错Cannot execute request on any known serve

&#x1f414;问题内容 报Cannot execute request on any known server 这个错&#xff1a;连接Eureka服务端地址不对。 &#x1f414;解决方式 检查.yml文件或者.properties文件配置 下划线下划线后面的小写字母等同于去掉下划线大写下划线后面的字母&#xff08;驼峰原则&am…

ATFX:美国2月未季调核心CPI年率录得3.8%,低于前值0.1个百分点

ATFX汇市&#xff1a;据美国劳工部数据&#xff0c;美国2月未季调核心CPI年率&#xff0c;最新值3.8%&#xff0c;前值为3.9%&#xff0c;预期值3.7%&#xff0c;最新值低于前值0.1个百分点&#xff0c;意味着高通胀问题正在逐步缓解&#xff0c;最新值高于预期值&#xff0c;意…

Spring启动“--”设置参数没生效

现象 在idea中启动SpringBoot项目时&#xff0c;使用“--”设置的启动参数没有生效&#xff0c;如修改端口号“--server.port8082” 原因 排查发现是因为在使用SpringApplication.run启动项目时&#xff0c;没有将args参数传入run方法。 修复方案 SpringApplication.run参数中…