CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!

在计算机视觉不断发展的领域中,基础模型已成为一种关键工具,显示出对多种任务的出色适应性。其中,由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制。

针对此问题,VIVO提出了ASAM,这是一种通过对抗性调整来增强SAM性能的新方法。广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

ASAM只是提高了SAM的性能,而不需要对架构进行修改。ASAM也是资源友好型的,因为它只需要8个A6000 gpu而不需要额外的数据(1% SA-1B数据)。

相关链接

论文地址:https://arxiv.org/pdf/2405.00256

项目页面:https://asam2024.github.io/

论文阅读

ASAM:增强分段任何模型与对抗性调整

摘要

在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。

本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。通过利用稳定的扩散模型,我们增强了 SA-1B 数据集的一个子集 (1%),生成了更能代表自然变化而不是传统不可察觉的扰动的对抗性实例。我们的方法保持了对抗性示例的照片级真实感,并确保与原始掩模注释对齐,从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中都表现出显著的改进,而无需额外的数据或架构修改。我们广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

方法

ASAM主要包含三个步骤,第一步是对抗性潜在优化,第二步是可控对抗样本生成,第三步是用对抗样本对SAM进行微调。

效果展示

更强大的 SAM

更强大的 SAM。与PGD-Tuning SAM、DAT-Tuning SAM、DatasetDM-Tuning SAM相比。ASAM 在所有14个测试数据集上都明显优于其他调优方法,并且与原始SAM相比实现了性能提升。

对提出的ASAM与其他方法进行定性比较。黄色框代表框提示。

从普通场景、医疗场景等不同场景的定性比较来看,提出的ASAM可以提高SAM的性能。

更强大的 EfficientSAM

更强大的 EfficientSAM。与 EfficientSAM( EfficientSAM:利用蒙版图像预训练实现高效分割,ESAM,CVPR2024)相比,AESAM 在 16 个不同数据集上实现了性能提升。ESAM 是 Meta 提出的最新成果,在 CVPR2024 上获得满分。

更强大的 HQSAM

更强大的 HQSAM。与 HQSAM(高质量分割任何内容,HQSAM,NeurIPS2023)相比,HQ-ASAM 可以在 4 个不同的数据集上实现性能提升。HQSAM 是由苏黎世联邦理工学院和香港科技大学提出的工作,在 Github 上获得了约 3.4k 个星。

更强大的 SAM 适配器

更强大的 SAM-Adapter。与 SAM-adapter(ICCV2023 研讨会)相比,ASAM-Adapter 在 2 个不同的数据集上实现了性能提升。

结论

本研究中引入的 ASAM 代表了 SAM 通过创新使用对抗性调整而取得的重大进步。我们采用稳定的扩散模型来增强 SA-1B 数据集的一部分,生成了自然、逼真的对抗性图像,从而显著提高了 SAM 在各种任务中的分割能力。这种方法受到 NLP 中对抗性训练技术的启发,在增强 SAM 性能的同时,保留了 SAM 的原始架构和零样本优势。

我们的研究结果表明,ASAM 不仅在分割任务中设定了新的基准,而且还有助于对抗性示例在计算机视觉领域的更广泛应用和理解,为提升大型视觉基础模型的能力提供了一种新颖而有效的方法。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/861344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java知识点整理 13 — Hutool工具库

在开发时经常需要编写很多与业务无关的代码,比如获取指定日期对象、获取本机 IP 地址、数据加密等。通常我们会将这些代码独立出来,放到 utils 目录下,作为工具类供其它代码调用。 但如果遇到一个从未接触过的领域知识,开发一个新…

《Three.JS零基础入门教程》第九篇:环境详解

往期回顾: 《Three.JS零基础入门教程》第一篇:搭建开发环境 《Three.JS零基础入门教程》第二篇:起步案例 《Three.JS零基础入门教程》第三篇:开发辅助 《Three.JS零基础入门教程》第四篇:基础变换 《Three.JS零基…

gc.log中 CMS-concurrent-abortable-preclean

问题 在gc日志中看到 2024-06-26T16:16:07.5040800: 64690272.666: [CMS-concurrent-abortable-preclean-start]CMS: abort preclean due to time 2024-06-26T16:16:12.5530800: 64690277.716: [CMS-concurrent-abortable-preclean: 1.052/5.049 secs] [Times: user1.33 sys0…

Ubuntu系统安装软件---以安装QQ为例

以安装QQ为例,首先你的Ubuntu系统需要连上网,连上网的网络状态如下图所示。 在ubuntu系统的网页中搜索QQ,如下图所示。 进入QQ官网,点击Linux,如下图所示。 随后会让你选择什么架构的版本,如何查看自己的是…

【Python机器学习】分类向量——One-Hot编码(虚拟变量)

为了学习分类特征,以某国成年人收入数据集(adult)为例,adult数据集的任务是预测一名工人的收入是高于50k还是低于50k,这个数据集的特征包括工人的年龄、雇佣方式、教育水平、性别、每周工作时长、职业等。 这个任务属于…

代码随想录算法训练营第50天(py)| 动态规划 | 1143.最长公共子序列、1035.不相交的线、53. 最大子序和、392.判断子序列

1143.最长公共子序列 力扣链接 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列(未必连续) 的长度。如果不存在 公共子序列 ,返回 0 。 思路 确定dp含义 dp[i][j]:长度为[0,i-1]和[0,j-1]的最长公…

ONLYOFFICE 桌面编辑器 8.1使用体验分享

目录 编辑器市场现状与用户选择 ONLYOFFICE桌面编辑器概览和功能 ONLYOFFICE桌面编辑器概览 功能丰富的PDF编辑器 演示文稿编辑器的创新 文档编辑的灵活性 电子表格的高级功能 语言和本地化 用户界面和体验 媒体播放 云服务和本地处理 跨平台支持 总结 在线亲身体…

mapstruct实现各个实体间的类型转换(DTO转BO、BO转Entity)的实践

一、引入 在没有遇见mapstruct的时候,实现各个实体之间的转换,都是手动转换实现的,属性少一带你还好,当属性一多,代码就会变得很冗余,没必要的非逻辑的代码就会加多。。。。 比如: public cl…

vue封装原生table表格方法

适用场景:有若干个表格,前面几列格式不一致,但是后面几列格式皆为占一个单元格,所以需要封装表格,表格元素自动根据数据结构生成即可;并且用户可新增列数据。 分类: 固定数据部分 就是根据数据…

openlayers性能优化——开启图层预加载、减少空白等待时间

使用切片图层时、地图拖拽会有空白图片,为了减少空白等待时间,我们可以开始图层预加载。 const map_top new Map({layers: [new TileLayer({preload:Infinity, //预加载source: new StadiaMaps({layer: "outdoors",}),}),],target: "ma…

LINKAI工作流的建立与调试,用到COW项目的微信机器人上

连接时需要把右边的号连到下一个框的输入,开始与结束是默认的。 可以单独调试模块 可以对模块进行个性化定义 最后进行总流程调试 将这里的code放到config.json文件中 接着又做了一个较复杂的工作流DgPz9wJaoh   QlCc34a8bP 原项目网址: https:/…

【学习笔记-机器学习】感知机模型

Author:赵志乾 Date:2024-06-26 Declaration:All Right Reserved!!! 1. 基本概念 数据集的线性可分性:给定一个数据集 其中,,,,如果存在某个超平面S 能够将数…

Python的100道练习题目,每日一练,必成大神!!!

整理了100道Python的题目,如果你是一位初学者,这一百多道题可以 帮助你轻松的使用Python。初学 者每天可以尝试3-5个问题,经过这一百道题的练习,要把练习昨晚并且完全懂了,基本上Python就已 经入门了。如果你不是初学者…

Day 34:2368. 受限条件下可到达节点的数目

Leetcode 2368. 受限条件下可到达节点的数目 现有一棵由 n 个节点组成的无向树,节点编号从 0 到 n - 1 ,共有 n - 1 条边。 给你一个二维整数数组 edges ,长度为 n - 1 ,其中 edges[i] [ai, bi] 表示树中节点 ai 和 bi 之间存在一…

OpenCV 车道检测

OpenCV 车道检测 前言模型分析车道检测相关链接 前言 如果要检测道路图像中的车道,方法之一是利用深度学习的语义分割技术。而在 OpenCV 中解决此问题可以使用边缘检测器。在本节中,我们将了解如何使用边缘检测和直线检测识别道路图像中的车道。 模型分…

测试用例的基本要素与设计方法

测试用例的基本要素 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。 好的测试用例是一个不熟悉业务的人也能依据用例来很快的进行测试评价测试用…

RT-Thread使用HAL库实现双线程控制LED交替闪烁

如何创建工程我的其他文中你面有可以进去查看 1创建线程(以动态方式实现) 1-2创建函数入口 1-2启动函数 main.c文件源码 /** Copyright (c) 2006-2024, RT-Thread Development Team** SPDX-License-Identifier: Apache-2.0** Change Logs:* Date …

【课程总结】Day11(下):YOLO的入门使用

前言 YOLO的简介 YOLO(You Only Look Once)是一种流行的目标检测算法,由Joseph Redmon等人于2015年提出。YOLO的设计思想是将目标检测任务转化为单个神经网络的回归问题,通过在图像上划分网格并对每个网格预测边界框和类别置信度…

40.连接假死-空闲检测-发送心跳

连接假死情况 1.网络设备出现故障,例如网卡,机房等。底层的TCP连接已经断开,但应用程序没有感知到,仍然占着资源。 2.公网网络不稳定,出现丢包。若果连续出现丢包,这时现象就是客户端数据发不出去,服务端也一直收不到数据,就这么一直耗着。 3.应用程序线程阻塞,无法…

Java初识集合(后续不断补充)

第一次更新时间:2024.6.26 集合概述 Java中的集合就像一个容器,专门用来存储Java对象(实际上是对象的引用,但习惯称为对象),这些对象可以是任意的数据类型,并且长度可变。其中,这些…