无性能损失!让SAM加速近50倍!EfficientViT-SAM来了!

今天给大家分享一个加速视觉分割大模型的工作:EfficientViT-SAM。这是一种新的加速SAM系列。保留了SAM的轻量级提示编码器和mask解码器,同时用EfficientViT替换了沉重的图像编码器。对于训练,首先从SAM-ViT-H图像编码器到EfficientViT的知识蒸馏开始。随后在SA-1B数据集上进行端到端训练。由于EfficientViT的效率和容量,EfficientViT-SAM在A100 GPU上的TensorRT加速比SAM-ViT-H高出48.9倍,而且不会牺牲性能。

开源地址:https://github.com/mit-han-lab/efficientvit

文章链接:https://arxiv.org/pdf/2402.05008

介绍

SAM是一系列在高质量数据集上预训练的图像分割模型,该数据集包含1100万张图像和10亿个mask。SAM提供了令人惊叹的zero-shot图像分割性能,并且具有许多应用,包括AR/VR、数据标注、交互式图像编辑等。 尽管性能强大,但SAM的计算密集性很高,限制了其在时间敏感场景中的适用性。特别是,SAM的主要计算瓶颈是其图像编码器,在推理时每个图像需要2973 GMACs。

为了加速SAM,已经进行了大量努力,将SAM的图像编码器替换为轻量级模型。例如,MobileSAM 将SAM的ViT-H模型的知识蒸馏成一个微型视觉Transformer。EdgeSAM 训练了一个纯CNN模型来模仿ViT-H,采用了一个精心的蒸馏策略,其中包括提示编码器和mask解码器参与过程。EfficientSAM 利用MAE预训练方法来提高性能。

虽然这些方法可以降低计算成本,但它们都在性能上存在显著下降(上图1)。本文介绍了EfficientViT-SAM来解决这个限制,通过利用EfficientViT 来替换SAM的图像编码器。同时保留了SAM的轻量级提示编码器和mask解码器架构。训练过程分为两个阶段。首先,使用SAM的图像编码器作为老师,训练EfficientViT-SAM的图像编码器。其次,使用整个SA-1B数据集对EfficientViT-SAM进行端到端训练。

在一系列zero-shot基准测试上对EfficientViT-SAM进行了彻底评估。EfficientViT-SAM在所有先前的SAM模型上都提供了显著的性能/效率提升。特别是,在COCO数据集上,与SAM-ViT-H相比,EfficientViT-SAM在A100 GPU上实现了48.9倍的吞吐量提高,而mAP没有下降。

相关工作

SAM

SAM 在计算机视觉领域获得了广泛认可,展示了其在图像分割中的卓越性能和泛化能力。SAM将图像分割定义为一个可提示的任务,旨在给定任何分割提示生成有效的分割mask。为实现此目标,SAM利用图像编码器和提示编码器处理图像并提供提示。两个编码器的输出然后输入到mask解码器中,生成最终的mask预测。SAM在一个包含超过1100万张图像和超过10亿个高质量mask的大规模分割数据集上进行训练,实现了稳健的zero-shot开放世界分割。SAM在各种下游应用中显示了其高度的多功能性,包括图像修补 、目标跟踪和3D生成。然而,SAM的图像编码器组件会带来显著的计算成本,导致高延迟,限制了其在时间敏感场景中的实用性。近期的工作 [2–4, 14] 集中于改善SAM的效率,旨在解决其计算限制问题。

高效深度学习计算

当在边缘和云平台上部署深度神经网络时,提高其效率至关重要。我们的工作与高效模型架构设计相关,旨在通过将低效的模型架构替换为高效的模型架构来改善性能和效率之间的平衡。我们的工作还与知识蒸馏相关,该方法使用预训练的教师模型来指导学生模型的训练。此外,可以将EfficientViT-SAM与其他并行技术结合使用,进一步提高效率,包括剪枝、量化和硬件感知神经架构搜索。

方法

EfficientViT-SAM,利用EfficientViT 加速SAM。具体来说,我们的方法保留了SAM的提示编码器和mask解码器架构,同时将图像编码器替换为EfficientViT。设计了两个系列的模型,EfficientViT-SAM-L 和 EfficientViT-SAM-XL,提供了速度和性能之间的平衡。随后,使用SA-1B数据集对EfficientViT-SAM进行端到端训练。

EfficientViT

EfficientViT是一系列用于高效高分辨率密集预测的视觉Transformer模型。其核心构建模块是多尺度线性注意力模块,可以通过硬件高效的操作实现全局感受野和多尺度学习。具体来说,它用轻量级的ReLU线性注意力替换了低效的softmax注意力,从而实现了全局感受野。通过利用矩阵乘法的关联属性,ReLU线性注意力可以将计算复杂度从二次降低到线性,同时保持功能性。此外,它通过卷积增强了ReLU线性注意力,以减轻其在局部特征提取方面的局限性。

EfficientViT-SAM

模型架构。 EfficientViT-SAM-XL 的宏观架构如下图2所示。其骨干网络由五个阶段组成。与EfficientViT类似,在前几个阶段使用卷积块,而在最后两个阶段使用EfficientViT模块。通过上采样和加法融合来融合最后三个阶段的特征。融合的特征被输入到由多个融合MBConv块组成的neck中,然后传递到SAM头部。

训练。 为了初始化图像编码器,首先将SAM-ViT-H的图像嵌入蒸馏到EfficientViT中。采用L2损失作为损失函数。对于提示编码器和mask解码器,通过加载SAM-ViT-H的权重来初始化它们。然后,以端到端的方式在SA-1B数据集上对EfficientViT-SAM进行训练。

在端到端训练阶段,以相等的概率随机选择box状提示和点状提示之间。对于点状提示,从mask真值中随机选择1-10个前景点,以确保我们的模型对各种点配置的执行效果良好。对于box状提示,利用真值边界框。将最长边缩放到512/1024用于EfficientViT-SAM-L/XL模型,并相应地填充较短的边。每张图像最多选择64个随机采样的mask。为了监督训练过程,使用焦点损失和Dice损失的线性组合,焦点损失与Dice损失的比例为20:1。与SAM中采用的方法相似,为了减少歧义,同时预测三个mask,并仅反向传播最低损失。还通过添加第四个输出token来支持单个mask输出。在训练过程中,我们随机交替两种预测模式。

在SA-1B数据集上对EfficientViT-SAM进行了2个epoch的训练,使用批量大小为256。采用AdamW优化器,动量为β1 = 0.9和β2 = 0.999。初始学习率设置为2e−6/1e−6,针对EfficientViT-SAM-L/XL,通过余弦衰减学习率调度衰减到0。关于数据增强,使用随机水平翻转。

实验

在本节中,首先在第1节对EfficientViT-SAM的运行时效率进行了全面分析。随后,评估了EfficientViT-SAM在COCO和LVIS数据集上的zero-shot能力,这些数据集在训练过程中未遇到。执行了两个不同的任务:下一个节中的单点有效mask评估和再下一节中的box状提示实例分割。这些任务分别评估了EfficientViT-SAM的点状提示和盒状提示特性的有效性。我们还供了SGinW基准测试的结果。

运行时效率

我们比较了EfficientViT-SAM与SAM和其他加速工作的模型参数、MACs和吞吐量。结果如下表1所示。在单个NVIDIA A100 GPU上进行了TensorRT优化的吞吐量测量。结果显示,与SAM相比,我们实现了令人印象深刻的加速,速度提升了17到69倍。此外,尽管EfficientViT-SAM的参数比其他加速工作多,但由于其有效利用硬件友好的操作符,它表现出了显着更高的吞吐量。

zero-shot点提示分割

我们评估了EfficientViT-SAM根据点提示分割对象的zero-shot性能,结果如下表2所示。我们采用了[1]中描述的点选择方法。即初始点被选择为距离对象边界最远的点。每个后续点被选择为距离误差区域边界最远的点,误差区域被定义为真值和先前预测之间的区域。使用COCO和LVIS数据集上的1/3/5次点击进行性能报告,mIoU作为指标。结果表明,与SAM相比,我们在提供额外点提示时表现出了更优异的性能。

zero-shot框提示分割

我们评估了EfficientViT-SAM在使用边界框进行对象分割时的zero-shot性能。首先将真值边界框输入到模型中,并将结果呈现在下表4中。报告了所有对象的mIoU,以及分别为小、中、大对象。我们的方法在COCO和LVIS数据集上都明显优于SAM。

接下来,我们使用一个目标检测器ViT-Det,并利用其输出框作为模型的提示。下表5中的结果表明,EfficientViT-SAM相比SAM实现了更优异的性能。值得注意的是,即使是EfficientViT-SAM的最轻版本也明显优于其他加速工作的性能。

此外,使用YOLOv8和GroundingDINO作为目标检测器,在COCO数据集上评估了EfficientViT-SAM的性能。YOLOv8是一个适用于实际应用的实时目标检测器。另一方面,GroundingDINO能够使用文本提示检测目标,使能够根据文本线索进行对象分割。下表6中呈现的结果显示了EfficientViT-SAM相对于SAM的出色性能。

zero-shot自然环境分割

自然环境分割基准包括25个zero-shot自然环境分割数据集。我们将Grounding-DINO作为框提示,为EfficientViT-SAM提供了zero-shot分割。每个数据集的全面性能结果见下表3。SAM的mAP为48.7,而EfficientViT-SAM的得分更高,为48.9。

定性结果

下图3展示了EfficientViT-SAM在提供点提示、框提示和全分割模式下的定性分割结果。结果表明,EfficientViT-SAM不仅在分割大目标方面表现出色,而且在有效处理小目标方面也表现出色。这些发现突显了EfficientViT-SAM出色的分割能力。

结论

EfficientViT-SAM利用EfficientViT替换了SAM的图像编码器。EfficientViT-SAM在各种zero-shot分割任务中实现了显著的效率提升,而不会牺牲性能。已将预训练模型开放源代码发布在GitHub上。

参考文献

[1] EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

更多精彩内容,请关注公众号:AI生成未来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/678269.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Github 2024-02-11 开源项目日报Top10

根据Github Trendings的统计,今日(2024-02-11统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目4非开发语言项目2C项目1C项目1Solidity项目1JavaScript项目1Rust项目1HTML项目1 免费服务列表 | f…

实战案例:将已有的 MySQL8.0 单机架构变成主从复制架构

操作步骤 修改 master 主节点 的配置( server-id log-bin )master 主节点 完全备份( mysqldump )master 主节点 创建复制用户并授权master 主节点 将完全备份文件拷贝至从节点修改 slave 从节点 的配置( server-id rea…

全功能的屏幕截图工具 - PicPick

全功能的屏幕截图工具 - PicPick 1. PicPick1.1. PicPick 中文1.2. Hot keys References 1. PicPick https://picpick.app/zh/ https://picpick.app/en/ A full-featured screen capture and recording tool, Intuitive image editor, color picker, color palette, pixel-ru…

腾讯云4核8G服务器性能如何?支持多少用户访问?

腾讯云4核8G服务器支持多少人在线访问?支持25人同时访问。实际上程序效率不同支持人数在线人数不同,公网带宽也是影响4核8G服务器并发数的一大因素,假设公网带宽太小,流量直接卡在入口,4核8G配置的CPU内存也会造成计算…

【大厂AI课学习笔记】【1.5 AI技术领域】(10)对话系统

对话系统,Dialogue System,也称为会话代理。是一种模拟人类与人交谈的计算机系统,旨在可以与人类形成连贯通顺的对话,通信方式主要有语音/文本/图片,当然也可以手势/触觉等其他方式 一般我们将对话系统,分…

算法学习——LeetCode力扣栈与队列篇2

算法学习——LeetCode力扣栈与队列篇2 150. 逆波兰表达式求值 150. 逆波兰表达式求值 - 力扣(LeetCode) 描述 给你一个字符串数组 tokens ,表示一个根据 逆波兰表示法 表示的算术表达式。 请你计算该表达式。返回一个表示表达式值的整数。…

X图形

1.题目 这道题是蓝桥云课上面的一道题目,它是2022年蓝桥杯省模拟题,题目难度为简单。 考察的知识点为递归。 题目链接:X图形 2.思路 如何理解题意? 蓝桥杯的题目和Leetcode题目最大的不同点在于,蓝桥杯的题目大部…

IDEA中Git的使用小技巧-Toolbar(工具栏)的设置

目录 1 前言 2 步骤 2.1 打开设置 2.2 找到Menus and Toolbars 2.3 Menus and Toolbars界面的介绍 2.4 选择工具 2.5 查看 1 前言 工具栏的合理运用,能够极大程度上为我们省时省力 ,接下来我将以Git工具的添加,介绍如何定制我们IDEA…

Makefile编译原理 make 中的路径搜索_1

一.make中的路径搜索 问题:在实际的工程项目中,所有的源文件和头文件都放在同一个文件夹中吗? 实验1 : VPATH 引子 mhrubuntu:~/work/makefile1/17$ ll total 28 drwxrwxr-x 4 mhr mhr 4096 Apr 22 00:46 ./ drwxrwxr-x 7 mhr m…

离开亚马逊7.5年后的真心话

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

【开源】SpringBoot框架开发厦门旅游电子商务预订系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 景点类型模块2.2 景点档案模块2.3 酒店管理模块2.4 美食管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 学生表3.2.2 学生表3.2.3 学生表3.2.4 学生表 四、系统展示五、核心代码5.1 新增景点类型5.2 查询推荐的…

金和OA C6 RssModulesHttp.aspx SQL注入漏洞复现

0x01 产品简介 金和网络是专业信息化服务商,为城市监管部门提供了互联网+监管解决方案,为企事业单位提供组织协同OA系统开发平台,电子政务一体化平台,智慧电商平台等服务。 0x02 漏洞概述 金和OA C6 RssModulesHttp.aspx接口处存在SQL注入漏洞,攻击者除了可以利用 SQL 注入…

算法学习——LeetCode力扣二叉树篇3

算法学习——LeetCode力扣二叉树篇3 116. 填充每个节点的下一个右侧节点指针 116. 填充每个节点的下一个右侧节点指针 - 力扣(LeetCode) 描述 给定一个 完美二叉树 ,其所有叶子节点都在同一层,每个父节点都有两个子节点。二叉树…

「C++ 类和对象篇 11」explicit关键字

目录 〇、构造函数还具有类型转换的作用 一、explicit关键字是什么? 二、为什么需要explicit关键字? 三、怎么使用explicit关键字? 【总结】 〇、构造函数还具有类型转换的作用 构造函数不仅可以构造与初始化对象,对于只有一个参…

ChatGpt报错:Your authentication token is no longer valid解决办法

今天打开ChatGpt突然提示Oops!,Your authentication token is no longer valid.,之前还好好的,环境也没变啊,结果弄了好久终于解决,于是记录一下解决过程,顺便总结一下关于OpenAI各种报错的解决办法。 完整…

【linux温故】linux调度机制

假如你是设计者,你会设计怎样的调度机制呢? 时间片 最简单的,小学生都能想出来的一种,每个 ready task,按照一个固定的时间片轮流执行。 大家不要抢,挨个儿排队执行。执行完时间片,就排在后面…

漫漫数学之旅017

文章目录 经典格言数学习题古今评注名人小传(一)亚当斯密(二)J理查德高特三世 经典格言 科学是热情与迷信之毒的最佳解毒剂。——亚当斯密(Adam Smith) 咳咳,各位看官,且听我用轻松…

【HTTP】localhost和127.0.0.1的区别是什么?

目录 localhost是什么呢? 从域名到程序 localhost和127.0.0.1的区别是什么? 域名的等级划分 多网站共用一个IP和端口 私有IP地址 IPv6 今天在网上逛的时候看到一个问题,没想到大家讨论的很热烈,就是标题中这个: …

吹响AI PC号角!微软在Windows中不断增加“Copilot含量”

2024,会是AI PC元年吗?至少微软正在往这个方向努力。 本周,微软开始在Windows中测试Copilot的“新体验”,其中包括任务栏中的Copilot图标,当用户复制文本或图片时,Copilot操作菜单就会自动出现。 有媒体在…

Zotero常用插件分享

Zotero有着强大的文献管理功能,之前也对其进行过简要介绍(Zotero——一款文献管理工具),而安装一些必要的插件则可以使其如虎添翼,今天一起来探索一下一些实用的插件吧!(排名不分先后&#xff0…