【PaperReading】4. TAP

Category

Content

论文题目

Tokenize Anything via Prompting

作者

Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan (Beijing Academy of Artificial Intelligence)

发表年份

2023

摘要

提出了一个统一的可提示模型,能够同时对任何事物进行分割、识别和描述。与SAM不同,我们的目标是通过视觉提示在野外构建一个多功能的区域表示。为此,我们使用大量分割掩码(如SA-1B掩码)和来自预训练CLIP模型的语义先验(拥有50亿参数)训练了一个通用模型。

具体而言,通过为每个掩码token添加一个语义token来构建一个可提示的图像解码器。语义token负责在预定义的概念空间中学习语义先验。通过对掩码token上的分割和语义token上的概念预测进行联合优化,模型表现出强大的区域识别和定位能力。例如,一个额外的3800万参数的因果文本解码器从零开始训练,在Visual Genome区域描述任务中创下了150.7的CIDEr分数新纪录。我们认为这个模型可以成为一个多功能的区域级图像tokenizer,能够为广泛的感知任务编码通用的区域上下文。代码和模型可在以下地址获取:https://github.com/baaivision/tokenize-anything。

引言

视觉感知的一个关键目标是有效地定位和识别任意感兴趣区域。它需要一个能够理解区域上下文并同时执行分割、识别和描述等感知任务的单一视觉模型。然而,现有模型通常只专注于定位类不敏感的掩码(例如SAM)或仅提取视觉语义(例如CLIP及其区域级变体)。特别是SAM开发了一个可以通过提示分割任何事物的分割基础模型,使得像素级定位任务具有强大的泛化能力。另一方面,CLIP通过在网规模的图像-文本对上进行对比学习,训练了一个识别基础模型,展示了在识别任务中强大的零样本能力。因此,从CLIP模型中学习语义先验是实现全面视觉感知的有希望的途径。

主要内容

论文详细介绍了如何构建一个能够高效实现分割、识别和描述任何事物的可提示模型。这是通过在可提示分割器内预测CLIP先验以及扩展模型范围来包含描述生成能力来实现的。文章主要关注在一个可提示分割模型SAM中对视觉和语言进行对齐,从而增强模型的区域级语义感知能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同,作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。模型在人工策划的概念空间中使用现成的CLIP嵌入,并在SAM的框架内进行预训练。

实验

在“实验”部分,作者详细介绍了他们如何在不同的数据集和任务上测试TAP模型。他们使用了SemanticSA-1B数据集进行零样本分割和区域级描述任务的实验。这些实验旨在评估模型在处理各种视觉和语言任务时的效果,包括图像分割、对象识别和图像描述。作者还对模型在各种复杂场景下的性能进行了评估,这包括不同类型的图像和多样化的描述任务。实验结果表明,TAP模型在所有测试任务上均表现出色,尤其是在零样本学习和区域级描述生成方面,显示了其卓越的适应性和灵活性。这些实验结果强调了模型的有效性和广泛的应用潜力。

结论

视觉提示可以促进超越简单分割的更广泛任务范围。通过在图像级CLIP中引入区域语义意识,SAM得到了增强,而不会损害掩码AP。此外,诸如词汇概念空间这样的正交空间对于有效学习CLIP先验至关重要。最后,他们强调,带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer,其中token化的区域特征可以直接用于提示因果语言建模。

阅读心得

就是在SAM架构上加上了text_token使得原来基于mask训练的SAM,现在也要基于text的描述进行训练。

亮点:训练了一个可用于VLM的基座模型,为下游任务提供一个vision-text对齐的SAM模型。

这个想法我们以前也提到过(下图中"Mask Decoder Lightly Adapt"部分): 但是苦于训练不动,放弃了。

https://aibee.feishu.cn/sync/DrsRdXCpbsfwU0bwcJ3cVxmdnIb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/617112.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习_实战框架

文章目录 介绍机器学习的实战框架1.定义问题2.收集数据和预处理(1).收集数据(2).数据可视化(3).数据清洗(4).特征工程(5).构建特征集和标签集(6).拆分训练集、验证集和测试集。 3.选择算法并建立模型4.训练模型5.模型的评估和优化 介绍机器学习的实战框架 一个机器学习项目从开…

在加载第三方库过程中,无法加载到库的问题(使用readelf, patchelf命令)

无法加载到库问题 问题及分析过程readelf 命令patchelf命令 问题及分析过程 在开发一个程序过程中,需要加载第三方库iTapTradeAPI, 在CMakeList.txt中已经设置了CMAKE_INSTALL_RPATH,但是发布到生产之后由于目录问题无法加载到libiTapTradeAPI库了 下面…

一篇文章带你了解Python常用自动化测试框架——Pytest!

在之前的文章里我们已经学习了Python自带测试框架UnitTest,但是UnitTest具有一定的局限性 这篇文章里我们来学习第三方框架Pytest,它在保留了UnitTest框架语法的基础上有着更多的优化处理 下面我们将从以下角度来介绍Pytest: Pytest基本介…

pyhackrf 发送写法重点 一定要这样写才能发送

非常抱歉误导了大家 以前的写法会让波形不正常 但我已经写出正确方式了 大家参考: import pyhackrf2 as pyhackrf import numpy as np import ook as ook from multiprocessing import Array import threadingbuffer [0xff,0x09]raw ook.tx_data(buffer)class hackrf_thre…

Docker的基础概念及命令

这篇主要介绍一下Docker比较重要的两个概念,镜像和容器,以及操作它们的一些常用命令。 文章目录 一、基础命令二、镜像三、容器 一、基础命令 docker -v:查看 Docker 的版本 systemctl start docker:启动docker systemctl stat…

JavaScript中这些事件(event)类型你都知道吗?

JavaScript中有许多不同类型的事件,用于监听和响应Web页面上的各种交互和用户动作。以下是一些常见的JavaScript事件类型: 鼠标事件: click: 鼠标点击元素时触发。mouseover 和 mouseout: 鼠标进入和离开元素时触发。mousedown 和 mouseup: 鼠…

x-cmd pkg | ctop - 针对容器的类 top 命令

目录 介绍首次用户功能特点类似工具与竞品进一步阅读 介绍 ctop 是一个基于容器的类似 top 命令的性能监控工具,采用 Go 语言编写的,它以类似于 top 命令的方式显示运行中的容器的资源使用情况。ctop 提供了一个交互式的界面,可以让用户实时…

ensp配置命令大全

以下是一些常见的ensp配置命令&#xff1a; 配置接口&#xff1a; interface <interface-name>&#xff1a;进入接口配置模式ip address <ip-address> <subnet-mask>&#xff1a;配置接口IP地址和子网掩码shutdown&#xff1a;禁用接口no shutdown&#xff1…

fo安方的个人、博客和专栏

&#x1f49d;&#x1f49d;各位领导好&#xff0c;欢迎光临&#x1f49d;&#x1f49d; ☁️☁️slogon&#xff1a;云想衣裳花想容&#xff0c;春风扶栏露华容☁️☁️ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;fo安方的博客&#x1f4a5;&#x1f4a5; &#x1f49e;…

CRLF漏洞靶场记录

搭建 利用 docker 搭建 vulhub 靶场 git clone https://github.com/vulhub/vulhub.git 进入 /vulhub/nginx/insecure-configuration 目录 启动前关闭现有的 8080、8081、8082 端口服务&#xff0c;避免端口占用 docker-compose up -d 进入容器 docker exec -it insecure-…

Jmeter接口自动化02--JMeter的安装和使用

p02 高清B站视频链接 2.1 Windows环境 首先需要安装JDK&#xff0c;然后再部署JMeter。注意&#xff0c;JMeter对JDK的版本是有要求的&#xff0c;一般至少要JDK8&#xff0c;这也是目前开发过程中使用频繁的版本。 1. 安装JDK 从官网下载JDK&#xff1a;https://www.oracl…

QT:使用QStyle实现QMenu的滚动效果

项目中&#xff0c;使用QMenu&#xff0c;多个QAction时 超出页面范围&#xff0c;需要菜单栏可以上下滚动。 实际QMenu是带滚动的&#xff0c;但是要知道怎么使用 还是需要查看QT源码&#xff0c;现在简单记录下我的使用方法。 QT源码中&#xff1a;q->style()->style…

Java人脸识别

Java人脸识别 一.提出问题&#xff0c;引入SDK的概念 什么是SDK&#xff1f; 我们并不具备开发人脸识别的能力&#xff0c;但我们可以用大公司已经开发好的工具或者功能&#xff0c;来实现人脸识别&#xff0c;而大公司提供的就叫SDK(Software Development Kit)软件开发工具包…

扫雷(c语言)

先开一个test.c文件用来游戏的逻辑测试&#xff0c;在分别开一个game.c文件和game.h头文件用来实现游戏的逻辑 主要步骤&#xff1a; 游戏规则&#xff1a; 输入1&#xff08;0&#xff09;开始&#xff08;结束&#xff09;游戏&#xff0c;输入一个坐标&#xff0c;如果该坐…

制作文件二维码有什么好处?多个文件通过一个二维码展示的方法

现在把文件做成二维码来使用是很常见的一种方式&#xff0c;那么为什么很多人会选择这种方式来分享文件呢&#xff1f;那么用文件二维码有哪些好处呢&#xff1f;下面就让小编来给大家讲解一下。 首先&#xff0c;将文件制作二维码有利于多人同时查看内容&#xff0c;方便文件…

开抖音小店最低的成本是多少?运营带你揭秘!

大家好&#xff0c;我是电商糖果 一个做了7年电商的90后&#xff0c;从2020年开始做抖音小店。 所以关于抖音小店开店成本还是比较了解的&#xff0c;这里糖果就来给大家揭秘一下。 其实它总共分为两部分&#xff0c;第一部分就是开店成本&#xff0c;第二部分就是店铺运营成…

矿山无人驾驶方案

矿山无人驾驶运输系统&#xff0c;可实现露天矿采煤装载运输的无人化&#xff0c;满足智能矿山安全、高效、绿色、环保等目标。 无人驾驶应用的总体技术架构包括“车端、场端、云端”三个层面以及相应的安全保障体系&#xff0c;其中车端的智能矿卡具备车辆感知、通信、决策和执…

验证端口连通性的工具 telent nc

验证端口连通性的工具 telent nc 1、怎么验证端口连通性的工具2、telnet3、nc 1、怎么验证端口连通性的工具 telent nc这2个工具都可以验证端口连通性 2、telnet 命令格式 默认是验证tcp端口连通性 telnet ip port如果需要验证udp端口连通性 需要加上 -u telnet -u ip por…

【回顾2023,展望2024】砥砺前行

2023年总结 转眼间&#xff0c;迎来了新的一年2024年&#xff0c;回顾2023&#xff0c;对于我来说是一个充满平凡但又充实又幸运的一年。这一年经历了很多的事情&#xff0c;包括博客创作、技术学习、出书、买房等&#xff0c;基本上每件事情都是一个前所未有的挑战和机遇、使…

java 修改JsonObject对象所有的Value类型为String

将JSONObject 或者JSONArray 中所有Value 为数值类型 转为String. 转换前: [{"zjlx": 201,"xm": "刘**","cbdjxxlist": [{"zspmdm": 102031201,"rybm": "43000010300000411195","jfrlx": 1…