经典文献阅读之--RepViT-SAM(利用语义分割提高NDT地图压缩和描述能力的框架)

0. 简介
Segment Anything Model (SAM) 最近在各种计算机视觉任务上展现了令人瞩目的零样本迁移性能 。然而,其高昂的计算成本对于实际应用仍然具有挑战性。MobileSAM 提出通过使用蒸馏替换 SAM 中的重图像编码器,使用 TinyViT,从而显著降低了计算需求。然而,由于自注意力机制导致的内存和计算开销,其部署在资源受限的移动设备上仍面临挑战。

最近,RepViT 通过将 ViTs 的高效架构设计集成到 CNN 中,实现了移动设备上的最佳性能与延迟权衡。在这里,为了在移动设备上实现实时分割任何事物,作者遵循 [27] 的方法,用 RepViT 模型替换 SAM 中的重型图像编码器,最终得到了 RepViT-SAM 模型。相关的代码已近在Github上开源了。

1. 方法论
SAM [13]由一个重量级的基于ViT的图像编码器和一个轻量级的基于提示的掩模解码器组成。它庞大的图像编码器占据了大部分推理时间开销。因此,MobileSAM [27]建议将SAM中默认的ViT-H [6]图像编码器替换为轻量级的TinyViT [24]。TinyViT由四个逐渐降低分辨率的阶段组成。TinyViT的初始阶段由利用反向残差块[20]的卷积块组成。为了在模型开始时降低分辨率,采用了步幅为2的两个卷积块。类似地,相邻阶段之间也采用了步幅为2的卷积块进行空间降采样。为了使TinyViT的最终分辨率与原始SAM中ViT-H图像编码器的分辨率保持一致,MobileSAM将TinyViT中最后一个降采样卷积的步幅设置为1。此外,MobileSAM提出了解耦蒸馏策略,以有效训练轻量级图像编码器,其中TinyViT模型直接从原始SAM中的ViT-H蒸馏而来,而无需提示引导的掩模解码器。尽管MobileSAM显著降低了分割任何物体的计算需求,但在移动设备上部署仍然面临着相当大的挑战。如表1所示,由于其巨大的内存占用,MobileSAM无法在iPhone 12上运行。此外,在Macbook上,其处理单张图像的推理时间为494毫秒,表明有很大的改进空间。

最近,RepViT [21]通过重新审视ViT视角下CNN的高效设计,展示了在移动设备上性能和延迟的权衡方面的最新成果。RepViT采用了早期卷积[25]作为起始模块,即两个步幅为2的卷积进行4×降采样。它采用了RepViT块,由结构重参数化的深度卷积[4, 5]和前馈模块组成。相邻阶段之间采用了深度降采样模块,利用步幅为2的深度卷积和逐点卷积进行空间降采样和通道维度调制。此外,在所有阶段中都采用了交叉块方式的squeeze-and-excitation [8]层。RepViT在高分辨率视觉任务的延迟方面显示出了显著优势[21],这归功于其纯卷积架构。如表1所示,将ViT-H图像编码器替换为RepViT-M2.3模型后,RepViT-SAM在延迟方面与其他模型相比显著减少。在iPhone 12上,RepViT-SAM可以顺利进行模型推理。此外,在Macbook上,RepViT-SAM比MobileSAM快近10倍。

根据[27],我们通过直接蒸馏图像编码器RepViT-M2.3,即从原始SAM [13]中的ViT-H蒸馏,利用简单的均方误差损失来训练RepViT-SAM。与[27]类似,RepViT中最后一个降采样深度卷积的步幅设置为1,以使输出分辨率与原始SAM [13]中的提示引导掩模解码器兼容。

表1. RepViT-SAM与其他模型在延迟方面的比较。延迟(毫秒)是使用iPhone 12和Macbook M1 Pro上的Core ML工具,以标准分辨率[7] 1024×1024进行测量的。OOM表示内存不足。

 表2. 零样本边缘检测的比较结果。粗体表示最佳,下划线表示次佳。

2. 实验
2.1 实施细节

RepViT-SAM在与[27]相同的设置下进行了8个时期的训练。与MobileSAM [27]一样,我们只使用SAM-1B数据集[13]中的1%数据。为了加快训练过程,我们在蒸馏阶段之前预先计算并保存了来自ViT-H图像编码器的图像嵌入,这消除了在蒸馏过程中运行ViT-H的前向过程的需要,就像[27]一样。我们在BSDS500 [1, 17]上评估了RepViT-SAM在零样本边缘检测、使用COCO [14]进行零样本实例分割、在野外基准[29](SegInW)上进行分割、使用DAVIS 2017 [18]/UVO v1.0 [23]进行零样本视频对象/实例分割、使用DUTS [22]进行零样本显著对象分割,以及使用MVTec-AD [2]进行零样本异常检测的性能,遵循[3, 9, 12, 13, 19]。

点击经典文献阅读之--RepViT-SAM(利用语义分割提高NDT地图压缩和描述能力的框架) - 古月居可查看全文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在VSCode 中增加文件与文件夹的可辨识度

今天重新打开VSCode,打算新建一个项目做测试,看到VSCode中的文件与文件夹很不容易辨认,有时候容易导致一些误操作,需要做一些配置来改变。 效果图: 只需要做简单的2步就可以了。 1、安装插件 ⑴ 打开VSCode的扩展搜索并…

降雨量应急监测站的工作原理

TH-YJ3】雨量监测站是一种自动化的气象监测设备,主要用于实时、准确地监测和记录降雨量数据。它通过安装在特定位置的传感器和数据处理设备,连续监测降雨的强度、持续时间和降雨分布等信息,为气象、水文、环境等领域的研究和应用提供数据支持…

OpenBuild推出Sui Quiz任务,瓜分500SUI奖励

Quiz 功能 让用户可以: - 测试对某个知识点的理解力; 通过测试后获得 NFT 凭证,未来该凭证可用于求职认可、Bounty 任务、空投门槛。 Sui 是一个高性能的去中心化平台,旨在解决传统区块链系统中的可扩展性和效率问题。其独特的架…

福建聚鼎科技:装饰画生意到底有没有前景

在当今社会,随着人们生活水平的提高和审美需求的多样化,家居装饰行业迎来了新的发展机遇。装饰画作为家居装饰的重要组成部分,其市场前景备受关注。那么,装饰画生意到底有没有前景呢? 从市场需求的角度来看,装饰画市场…

视频监控业务平台LntonCVS运用国标协议对接视频汇聚管理综合平台应用方案

为了实现“以信息化推动应急管理能力现代化”的目标,应急管理部提出了加速现代信息技术与应急管理业务深度融合的计划。这一计划是国家加强和改进应急管理工作的关键举措,也是满足日益严峻的应急管理形势和人民群众不断增长的公共安全需求的紧迫需求。 为…

vue3 调用本地exe

1、注册表注册 在注册表中直接按照图2注册数据;也可以按照图3注册表的文件创建文档,然后点击打开,将会将注册表写入window系统。 图2 Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\F1] "URL:F1 Protocol Handler" &q…

国产POE芯片,芯昇电子成熟量产POE芯片,在PSE端和PD端均成熟量产产品

随着技术的发展和市场的需求,国产POE芯片已经逐渐崭露头角。在POE技术领域,POE芯片分为供电设备PSE和受电设备PD,而选择参与802.3bt标准与以太网联盟徽标计划的厂商来生产这些芯片,可以确保在互操作性和合规性上更有把握。过去…

按组计算每列最大最小值并横向填入格中

第 1 列是分组列,之后是N个数据列。 ABCD1ZN_1N_2Q_122A100200-1003A101-10-2004A102201-1045A991993006B1000110013007B10041200-9008C2000-210022009C1900-2090-2180 现在要按第 1 列分组,每组横向的2N个列,依次是组内每个数据列的最大值…

华为昇腾310 ATC转换工具安装

参考: https://bbs.huaweicloud.com/blogs/393282?utm_source=zhihu&utm_medium=bbs-ex&utm_campaign=other&utm_content=content https://www.hiascend.com/document/detail/zh/canncommercial/601/inferapplicationdev/atctool/atctool_0004.html 1、基本工具…

K8s中配置使用ingress

Ingress是什么 在Kubernetes中,Ingress是一种用于将外部流量路由到集群内部服务的API对象。它通常与Ingress控制器一起使用,Ingress控制器负责根据Ingress规则路由外部流量到不同的服务上。   Ingress 提供从集群外部到集群内服务的 HTTP 和 HTTPS 路由…

Vue中的常用指令

Vue 会根据不同的【指令】,针对标签实现不同的【功能】 概念:指令(Directives)是 Vue 提供的带有 v- 前缀 的 特殊 标签属性。 为啥要学:提高程序员操作 DOM 的效率。 vue 中的指令按照不同的用途可以分为如下 6 大…

【Unity iOS打包】Library not loaded: ‘@rpath/AdjustSdk.framework/AdjustSdk‘

Unity打包iOS,XCode运行App黑屏卡死,报错: dyld[8412]: Library not loaded: rpath/AdjustSdk.framework/AdjustSdkReferenced from: /private/var/containers/Bundle/Application/C019F943-138F-4B33-AAC1-F18453F942D9/AnimalsBAMBAM.app/…

采用Java+ SpringBoot+ IntelliJ+idea开发的ADR药物不良反应监测系统源码

采用Java SpringBoot IntelliJidea开发的ADR药物不良反应监测系统源码 ADR药物不良反应监测系统有哪些应用场景? ADR药物不良反应监测系统有哪些应用场景? ADR药物不良反应监测系统具有广泛的应用场景,以下是一些主要的应用场景&#xff1a…

发现一个可以白嫖GPU的平台

网址 https://platform.virtaicloud.com/gemini_web/auth/register?inviteCodeb0322161368ead7f49716688486796dd 驱动云注册有100点的算力点,目前最便宜的机器大概是0.49算力点每小时,安装个sd或者简单学习训练数据的话,应该能用挺久的。…

【豆伴匠】L1-L12更新完,一站式解决文史积累、阅读、写作难题,弯道超车,寒假必备

合抱之木,生于毫末; 九层之台,起于垒土; 千里之行,始于足下。 豆伴匠是什么? 豆伴匠内容包括:人、文、史、作四个模块,全面覆盖文史知识及读写技巧。 目前,豆伴匠有L…

【408真题】2009-24

“接”是针对题目进行必要的分析,比较简略; “化”是对题目中所涉及到的知识点进行详细解释; “发”是对此题型的解题套路总结,并结合历年真题或者典型例题进行运用。 涉及到的知识全部来源于王道各科教材(2025版&…

[C++]红黑树

一、概念 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或 Black。 通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路 径会比其他路径长出俩倍,因而是…

CIM分级

定义 以建筑信息模型(BIM)、地理信息系统(GIS)、物联网(IoT)等技术为基础,整合城市地上地下、室内室外、历史现状未来多维多尺度信息模型数据和城市感知数据,构建起三维数字空间的城…

面试问到Spring中的@Autowired注解,可以这样答

前言 在Spring框架中,依赖注入是一个核心概念,它允许将一个对象的依赖关系外部化并由Spring容器来管理。Autowired注解是实现这一点的关键工具之一。当然,这块知识也是面试官们老生常谈的问题。 下面就跟着博主的步伐,一起来探讨…

GCANet去雾算法

目录 1. 引言 2. 门控上下文注意机制(GCA) 3. 去雾流程 4. 模型代码 5. GCANet的优势 6. 去雾效果 1. 引言 GCANet(Gate-Controlled Attention Network)是一种用于图像去雾的深度学习算法,通过引入注意力机制来改进传统的去雾方法&…