【论文阅读笔记】MAS-SAM: Segment Any Marine Animal with Aggregated Features

1.论文介绍

MAS-SAM: Segment Any Marine Animal with Aggregated Features
MAS-SAM:利用聚合特征分割任何海洋动物
Paper Code(空的)

2.摘要

最近,分割任何模型(SAM)在生成高质量的对象掩模和实现零拍摄图像分割方面表现出卓越的性能。然而,作为一种通用的视觉模型,SAM主要是用大规模自然光图像训练的。在水下场景中,由于光的散射和吸收,它表现出显著的性能下降。同时,SAM 解码器的简单性 可能会导致丢失细粒度的对象细节。为了解决上述问题,我们提出了一种新的特征学习框架MAS—SAM的海洋动物分割,其中包括整合有效的适配器到SAM的编码器和构建一个金字塔解码器。更具体地说,首先建立了一个新的SAM的编码器与有效的适配器的水下场景。然后,介绍了一个超映射提取模块Hypermap Extraction Module(HEM),以产生多尺度的功能,全面的指导。最后,提出了一个渐进预测解码器(PPD)聚合的多尺度特征和预测最终的分割结果。当嫁接融合注意力模块(FAM),我们的方法能够提取更丰富的海洋信息,从全球上下文线索细粒度的局部细节。

Keywords:适配器,SAM,金字塔解码器,分割海洋动物,LoRA微调

3.Introduction

海洋动物分割(MAS)是视觉智能和水下机器人领域中的关键和基本任务。它旨在从水下图像或视频中识别和分割海洋动物。从功能上讲,海洋动物的准确分割对于包括海洋生物学、生态学和保护在内的各个研究领域都非常重要。但水下环境的特点是复杂的光散射和吸收效应,导致图像质量下降,对比度降低和物体模糊。此外,海洋动物往往表现出伪装的属性,这进一步复杂的分割任务。为了应对这些挑战,需要先进的感知技术。

最近,SAM提出,并在一般的分割任务上已显示出巨大的潜力。然而,SAM的训练场景主要涉及自然光照条件,这限制了其在水下环境中的性能。此外,SAM中过于简单的解码器结构缺乏生成细粒度分割结果的能力。

考虑到上述事实,在这项工作中,本文提出了一种新的基于SAM的特征学习框架命名为MAS-SAM海洋动物分割。更具体地说,通过冻结SAM的编码器的预训练参数,并引入有效的适配器,我们建立了一个Adapter-informed SAM编码器(ASE)从海洋动物图像中提取特征。此外,我们还构造了一个超映射提取模块(HEM),用于从新SAM的编码器中提取多尺度特征映射。它为后续的掩模预测过程提供了全面的指导。为了改进SAM的解码器,我们引入了渐进预测解码器(PPD)来聚合来自原始提示、ASE和HEM的特征。当与融合注意力模块(FAM)嫁接时,我们的PPD可以优先考虑多粒度特征图的重要性,并从全局上下文线索中提取更丰富的海洋信息,以获得细粒度的局部细节。

4.网络结构详解

在这里插入图片描述
本文提出的框架(MAS-SAM)的整体结构。它由三个主要部分组成:适配器通知SAM编码器(ASE)、超映射提取模块(HEM)和渐进预测解码器(PPD)。

适配器通知SAM编码器Adapter-informed SAM Encoder
在这里插入图片描述

保留了原始SAM的核心组件,并利用两个参数高效的微调机制来改进预训练的编码器。如上图所示,我们将LoRA 和适配器分别输入到每个Transformer块的多头自注意(MHSA)和前馈网络(FFN)中。更具体地,令Xi ∈ RN×D为第i个Transformer块的输入。这里,N是令牌的数量,D表示嵌入维数。由LoRA修改的MHSA层可以表示如下:
在这里插入图片描述
其中,Wq、Wk和Wv分别是用于生成原始查询、关键字和值矩阵的三个线性投影层的权重。 W q , v d o w n ∈ R M × D W^{down}_{q,v} ∈ R^{M×D} Wq,vdownRM×D W q , v u p ∈ R M × D W^{up}_{q,v} ∈ R^{M×D} Wq,vupRM×D分别是两个线性投影层的权值,用于降低和恢复特征维数,其中M是向下映射的维度。通过这种方式,可以冻结预训练的权重(Wq、Wk和Wv)和利用秩分解矩阵来大大减少可训练参数的数量。

此外,我们将一个适配器插入到FFN中,如下所示:
在这里插入图片描述
其中LN和MLP代表层归一化(LN)和多层感知器(MLP)。σ是ReLU(Rectified Linear Unit)。 W a d p t d o w n ∈ R P × D W^{down}_{adpt} ∈ R^{P×D} WadptdownRP×D W a d p t u p ∈ R P × D W^{up}_{adpt} ∈ R^{P×D} WadptupRP×D分别是两个线性投影的权值,用于降低和恢复特征维数。P是向下投影维度。与LoRA类似,通过采用极低的参数P值,可以实现参数有效的微调,以使预训练的SAM的编码器适应海洋场景。

超地图提取模块
在这里插入图片描述

由于复杂的水下环境,利用局部的细节和全局的背景下,鲁棒性和准确的MAS十分重要。不同的Transformer层捕获不同级别的语义,通常,浅层保留更多的局部细节,深层表达更多的上下文信息。因此,为了使我们提出的模型利用更丰富的海洋信息,提出了一个超地图提取模块(HEM)考虑ASE的多尺度特征地图。然后,它作为后续掩模预测过程的综合指导。更具体地说,我们首先将图像 I ∈ R H × W × 3 I ∈ R^{H×W×3} IRH×W×3送入ASE(编码器),并获得不同Transformer层的输出。在这项工作中,我们选择了3-6-9-12层,并得到多尺度表征特征,即,Xi(i = 3,6,9,12)。然后,我们将它们重塑为空间特征映射 F i ∈ R H / 16 × W / 16 × D F_i ∈ R^{H/16×W/16×D} FiRH/16×W/16×D。为了同时考虑这些多尺度特征图,我们执行以下特征聚合:
在这里插入图片描述
其中ϕ1×1和ϕ3×3分别是具有1×1和3×3核的卷积层。为了提高训练的稳定性,在卷积层之后引入了批归一化(BN)和RELU激活函数。[·]是通道中的级联。
然后,我们引入通道注意层以生成超映射Hj,如下所示:
在这里插入图片描述
其中GAP是全局平均池(GAP),δ是Sigmoid函数,ψ2×2是具有2×2核的反卷积层。这样可以获得多比例尺的超图。这些超地图在提高MAS的性能方面起着至关重要的作用。

渐进预测解码器
在这里插入图片描述

由于海洋动物的外观变化很大,SAM中简单的解码器设计很难实现准确的分割掩模。为此提出了一种渐进预测解码器(PPD)来有效地提高预测能力。它具有金字塔结构,从原始提示、ASE和HEM中逐步聚合多源特征,并获得最终的分割预测。

在这里插入图片描述
如上图所示,提出了一个融合注意力模块(FAM)来完全聚合多源特征。更具体地说,我们开始对来自ASE的特征进行上采样,并将输入特征缩放为相同的大小。然后,我们将它们融合如下:
在这里插入图片描述
其中Ui是通过利用双线性插值Φ的上采样特征。Dj是所提出的PPD中的第j个金字塔级的输出。对于FAM,我们利用通道注意力来优先考虑多源功能的重要性。还部署了残差结构,以加强代表能力。该过程可以表述为:
在这里插入图片描述
GMP是Global Max Pooling(GMP)。通道权重可以突出相关特征并抑制不相关特征。同时,我们的FAM所采用的注意力机制有助于捕捉不同尺度的特征之间的复杂关系,从而产生更连贯和信息量更大的特征表示。因此,FAM可以有效地集成和细化多源功能。

最后,为了实现渐进式预测,我们构建了与FAM嫁接的PPD,如下所示:
在这里插入图片描述
其中Pj是第j个金字塔级的预测掩码。PPD推进原始提示,ASE和HEM的无缝聚合,从而产生更丰富的海洋信息,从全局上下文线索细粒度的局部细节。

为了进一步改善预测结果,我们在不同阶段进行所有预测,并生成最终预测,如下所示:
在这里插入图片描述
通过金字塔结构和FAM的协同使用,我们的MAS-SAM可以有效地利用各种信息,并为各种海洋动物形状和大小产生高度精细和详细的分割掩模。

损失函数
从三个层面进行深度监管,像素级监督(二进制交叉熵损失)、区域级监督(SSIM损失)和全局级监督(IoU损失)。因此,我们将Lf或Lj定义为具有三项的组合损失:
在这里插入图片描述
其中Lf和Lj分别是最终预测和第j级输出的损失。

问题

代码也没公开,中间的cross attention没有提,CMP也没有提,应该是最后金字塔解码器的每一级输出到最终输出P的过程。
文章提到解码器接收原始提示、ASE编码器和HEM的特征,但实际上只接收了HEM的Hi和ASE的Fi进行上采样处理,并没有接收原始提示,应该是ASE编码器与原始提示(也就是默认提示,因为文章没有对提示编码器进行更改)的最终输出,进行cross attention,作为D0。

总体来说创新点在于SAM中增加LoRA和适配器微调而冻结原SAM的图像编码器;增加了超地图提取模块把编码器的不同层特征提出来进行处理;解码器金字塔型,增加接收不同层的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/833392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海云安受邀参加诸子云 4.27南京「金融互联网」私董会

4月27日,“安在新媒体网安用户行业活动”第四期私董会在南京顺利举办。活动以“金融&互联网”为主题,邀请十余位业内资深的甲方用户以及典型厂商代表。摒弃传统的议题分享,采取“随时问答,自由讨论”的形式,提问题…

Poisson_Image-Editing

1.算法介绍 快速泊松图像编辑(Fast Poisson Image Editing)是一种图像处理算法,用于将源图像的某个区域无缝地嵌入到目标图像中。它基于泊松方程的性质,通过求解离散化的泊松方程来实现图像的融合。该算法的核心思想是&#xff0c…

信息系统项目管理师0092:项目管理原则(6项目管理概论—6.4价值驱动的项目管理知识体系—6.4.1项目管理原则)

点击查看专栏目录 文章目录 6.4价值驱动的项目管理知识体系6.4.1项目管理原则1.原则一:勤勉、尊重和关心他人2.原则二:营造协作的项目管理团队环境3.原则三:促进干系人有效参与4.原则四:聚焦于价值5.原则五:识别、评估和响应系统交互6.原则六:展现领导力行为7.原则七:根…

在家中访问一个网站的思考

在家中访问一个网站的思考 1、家庭网络简介2、家庭WLAN DHCP2.1、家庭路由器PPPOE拨号2.2、DHCP(动态主机配置协议)2.3、接入家庭网的主机IP地址2.4、家庭总线型以太网2.5、Mac地址2.6、ARP协议2.7、IP协议 & UDP/TCP协议2.8、NAT(Netwo…

沙盘Sandboxie v5.56.4

菜鸟高手裸奔工具沙盘Sandboxie是一款国外著名的系统安全工具,它可以让选定程序在安全的隔离环境下运行, 只要在此环境中运行的软件,浏览器或注册表信息等都可以完整的进行清空,不留一点痕迹。同时可以防御些 带有木马或者病毒的…

OpenHarmony usb打开报错“usb fail error code = -3, error msg = LIBUSB_ERROR_ACCESS”

一、前言:最近公司项目需求,定位要求使用国产系统,国产系统无非就是 统信os ,麒麟OS, 还有这两年比较热的 OpenHarmony。于是,老板要求公司产品适配OpenHarmony , 跟上时代步伐。 二、在开发中使用 usb 通讯时&#x…

Unity射击游戏开发教程:(12)使用后处理

后处理 后期处理是向您的游戏场景添加一个或多个滤镜,确实可以为您的游戏提供精美的外观。在本文中,我们将讨论如何在 Unity 中设置后处理系统,从那里您可以探索和试验 Unity 提供的所有过滤器。 首先,我们需要从包管理器添加后处理器堆栈。包管理器是 Unity 产品的集合,…

淘宝数据分析——Python爬虫模式♥

大数据时代, 数据收集不仅是科学研究的基石, 更是企业决策的关键。 然而,如何高效地收集数据 成了摆在我们面前的一项重要任务。 本文将为你揭示, 一系列实时数据采集方法, 助你在信息洪流中, 找到…

怎么在家访问公司内网?

在当前的疫情情况下,越来越多的公司开始允许员工在家办公,这就需要解决一个问题:如何在家访问公司的内网资源呢?今天我将介绍一种解决方案——使用【天联】组网,它具有许多优势。 【天联】组网的优势 无网络限制&#…

在Node.js(express 框架)中使用 JWT 进行身份认证

文章目录 一、JWT 认证机制二、安装 JWT 相关的包三、基本使用1、生成 JWT 字符串2、添加中间件,解析 JWT 字符串3、获取管理员信息(admin) 一、JWT 认证机制 JWT 认证机制(图片来源于网络,侵权删除): 关于 JWT 原理可…

Conda下Richdem包遇到问题

Conda中Richdem包遇到问题 文章目录 Conda中Richdem包遇到问题问题一报错解决 问题二报错解决 参考 问题一 报错 RichDEM 是一套数字高程模型 (DEM) 水文分析工具,这次打算用richdem进行地形分析,尝试在conda里面安装richdem包的…

HDLC协议

目录 1.概念 2.配置 3.HDLC帧结构 4.HDLC帧类型 1.概念 HDLC(High-level Data Link Control)高级数据链路控制位于链路层协议,传输单位是帧,它是一组用于在网络结点间传送数据的协议。其特点是各项数据和控制信息都以比特为单位&#xff…

CUDA-共享内存法实现矩阵乘法(比常规方案提速一倍)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 共享内存是什么? 共享内存是在多个处理单元之间共享数据的一种内存区域。在计算机体系结构中,共享内存通…

S型曲线的几种设计(图像对比度调节)

一般来讲,图像调色模块都会提供“曲线”工具,这是一个极其灵活的功能,绝大部分的调色都可以通过该工具实现,但是曲线功能的交互相对而言比较复杂。出于简便性和效率方面的考量,调色模块往往还会提供一些具有很强的功能…

最后一块石头的重量 II ,目标和,一和0

最后一块石头的重量 II(0-1背包问题 将石头尽可能分为两堆重量一样的,进行相撞则为0 class Solution {public int lastStoneWeightII(int[] stones) {int sum0;for(int x:stones){sumx;}int targetsum/2;int[] dpnew int[target1];//dp[j]表示最大石堆的…

AI视频教程下载:学会用AI创作文本图片音频视频

在不断发展的科技领域,人工智能 (AI) 是毋庸置疑的冠军,它是一种不断创新的力量,在我们的生活中扮演着越来越重要的角色。随着 2023 年的到来,我们诚挚地欢迎您加入人工智能精通课程的大门。 这不仅仅是一个课程,它专为…

springboot(3.2.5)初步集成MinIO(8.5.9)开发记录

springboot初步集成MinIO开发记录 说明一:引入maven依赖二:手动注入minioClient三:创建service类四:测试打印连接信息五:时区转化工具类六:常用操作演示 说明 这里只是作者开发的记录,已备将来…

UDP通讯的demo

udp通讯的demo,这个只是简单的实现。 后面我还会加入udp组播功能。 因为懒,所以我自己发,自己接收了。 经过测试,可以看到,发送消息和接收消息功能都没问题。 广播: 这个是点对点的通过对方的ip和端口发…

47.Redis学习笔记

小林coding -> 图解redis的学习笔记 文章目录 Rediswindwos安装docker安装redis启动redis使用RDM访问虚拟机中的redispython连接redis缓存穿透、击穿、雪崩基本数据类型高级数据类型高并发指标布隆过滤器分布式锁Redis 的有序集合底层为什么要用跳表,而不用平衡…

【数据结构】闲谈A股实时交易的数据结构-队列

今天有点忙,特意早起,要不先写点什么。看到个股的红红绿绿, 突然兴起,要不写篇文章分析下A股交易的简易版数据结构。 在A股实时股票交易系统中,按照个人理解,大致会用队列来完成整个交易。队列(…