论文阅读——X-Decoder

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义)但尊重自然差异(例如空间掩码与序列语言)来无缝连接任务,从而全面显著改进不同的分割和VL工作。

输入:两个查询,(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation,(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出:两种类型,像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片:经过image encoder 得到特征,文本T经过text encoder 编码为,长度为n,非语义查询或者潜在查询,输入X-Decoder输出:

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中,图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决,而且使生成预训练也难以解决。相反,通过完全解耦图像和文本编码器,并将输出全部用作查询,X-Decoder可以从图像内监督和图像间监督中学习,这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation:

Referring Segmentation:,与一般分割类似,只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval:

Image Captioning and VQA:,这两个任务有两个不同:Captioning遵循因果掩mask策略,而VQA则不遵循。其次,使用Os中的所有输出作为字幕,但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而,在这项工作中,我们提倡通过功能而不是接口来实现统一,即我们最大限度地共享不同任务的共同部分,同时保持单个任务的其余部分不变。

2.3 Unified Architecture

,不同level的特征

在每一层:先和视觉特征做交叉注意力,然后潜在查询和文本查询做自注意力:

其中,对第一个公式,所有查询和视觉特征做交叉注意力,对于潜在查询,使用masked cross-attention mechanism,对文本查询使用全部注意力。

对第二个公式,(i) 我们使用最后一个潜在查询来提取全局图像表示,剩余的用于一般分割;(ii)对于图像Caption,每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力;(iii)对于参考分割,潜在查询与所有文本查询做注意力。

对,m个潜在查询输出mask,对于语义输出,为潜在查询和文本查询预测输出,

2.4  End-to-End Pre-training

两种类型的损失函数:Semantic Loss,Mask Loss

1)Semantic Loss:

三个任务对应三个损失函数:

对image-text retrieval,计算语言图片相对损失。最后一个有效的token feature 代表文本,记作,用潜在特征的表示全局图片的特征表示图片,记作,对minibatch  B获得B对特征对:,然后计算点乘得到,然后计算双向交叉熵:

y是class labels。

对于mask classification,包括“background”在内C个类别编码为C个文本查询,提取每个查询最后一个有效特征作为概念表示,然后取对应前(m-1)个潜在查询的decoder输出,计算这些输出和概念表示的点乘,得到,最后计算交叉熵损失:

对于image captioning,提取所有词汇向量,大小为V,X-Decoder最后n个语义输出,计算点乘得到,和GT的写一个token的id  计算交叉熵

2)Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT,使用BCE和DICE计算损失。

3  实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L  as the vision encoder

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA Maven Helper插件 解决jar冲突

Jar包冲突报错 程序抛出java.lang.ClassNotFoundException异常; 程序抛出java.lang.NoSuchMethodError异常; 程序抛出java.lang.NoClassDefFoundError异常; 程序抛出java.lang.LinkageError异常等;Maven Jar包管理机制 在Maven项…

微信小程序使用canvas制作海报并保存到本地相册(超级详细)

案例图 分析案例图都有哪些元素 1.渐变背景 2.圆形头像 3.文字 4.文字超出换行 5.图片居中 6.文字居中 7.单位适配 8.弹窗保存图片。因为一个个绘制图形太麻烦所以这里都采用了方法封装。 canvas api介绍 最后有全部代码,复制即用。 data数据 data() {return {myO…

【Linux--信号】

目录 一、信号的概念1.1查看系统的信号1.2信号的处理方式 二、信号的产生方式2.1通过终端按键2.2kill命令2.3系统调用2.4软条件产生信号2.5硬件异常产生信号 三、信号的保存3.1概念的认识3.2sigset_t3.3信号集操作函数3.4sigprocmask && sigpending3.4.1sigprocmask3.4…

【工具使用-A2B】使用A2B配置16通道车载音频系统

一,简介 工作中需要使用A2B搭建车载16通道演示系统,故本文记录一下,16通道车载音频系统中A2B工程相关配置,供参考。 使用FPGA输出双TDM8的信号给到A2B Master节点,音频数据经过A2B双绞线,传输到A2B Slave…

【开源】基于JAVA语言的企业项目合同信息系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 合同审批模块2.3 合同签订模块2.4 合同预警模块2.5 数据可视化模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 合同审批表3.2.2 合同签订表3.2.3 合同预警表 四、系统展示五、核心代码5.1 查询合同…

大师计划1.0 - log2 CRTO笔记

CRTOⅠ笔记 log2 这个笔记是我在2023年11月23日-12月22日中,学习CRTO所做的一些笔记。 事实上TryHackMe的路径和htb学院包含了许多CRTO的知识并且甚至还超出了CRTO(CS除外),所以很多东西在THM和htb学院学过,这次CRTO等…

【NI-RIO入门】如何格式化实时控制器

1.当使用CompactRIO时有时会出现硬盘已满或出现IO错误,如下如图 2.出现上下位机软件版本不匹配 3.rt组件损坏 4.实时控制器意外进入安全模式 5.设备非正常断电 6.访问被拒绝:目标被另一个进程(例如 VI 或 NI 分布式系统管理器)锁定…

中间继电器的文字符号和图形符号

中间继电器的文字符号和图形符号 中间继电器主要用途是当其他继电器触头数量或容量不够时,可借助中间继电器扩充触头数目或增大触头容量,起中间转换作用。将多个中间继电器相组合,还能构成各种逻辑运算电器或计数电器。 中间继电器文字符号…

Kafka、RocketMQ、RabbitMQ消息丢失可能存在的地方,以及解决方案

这里主要对比:Kafka、RocketMQ、RabbitMQ 介绍一下消息生产、存储、消费三者的架构形式。 消息丢失可能存在的场景: 情况一: 生产者发送给MQ的过程消息丢失 在写消息的过程中因为网络的原因,还没到mq消息就丢失了;或…

【AI故事】灵感的源泉还是知识的盗窃?

灵感的源泉还是知识的盗窃? ——ChatGPT Robot在一个漆黑的夜晚,年轻的作家艾米丽坐在书桌前,手里紧握着一支笔,思绪万千。她一直在寻找创作的灵感,但却毫无头绪。 突然,她听到了一声巨响,仿佛…

C# 初识System.IO.Pipelines

写在前面 在进一步了解Socket粘包分包的过程中,了解到了.NET 中的 System.IO.Pipelines,可以更优雅高效的解决这个问题;先跟随官方的示例做个初步的认识。 System.IO.Pipelines 是一个库,旨在使在 .NET 中执行高性能 I/O 更加容…

DeskPins | 将窗口钉在面前

前言 DeskPins | 将窗口钉在面前 有的人,一边看番,一边却在刷题; 有的人,一边网课,一边却在摸鱼。 有的人,一边某xuexi通上考试,一边。。 众所周知,窗口置顶是很常见的一个需求&…

智慧零售技术探秘:关键技术与开源资源,助力智能化零售革新

智慧零售是一种基于先进技术的零售业态,通过整合物联网、大数据分析、人工智能等技术,实现零售过程的智能化管理并提升消费者体验。 实现智慧零售的关键技术包括商品的自动识别与分类、商品的自动结算等等。 为了实现商品的自动识别与分类,…

vue3+ts 代理的使用

简单封装request.ts import axios from "axios";// 1.创建axios对象 const serviceaxios.create();// 2.请求拦截器 service.interceptors.request.use(config>{return config; },error>{Promise.reject(error); })// 3.响应拦截器 service.interceptors…

走进数字金融峰会,为金融科技数字化赋能

12月20—21日,FSIDigital数字金融峰会在上海圆满召开。本次峰会包含InsurDigital数字保险峰会和B&SDigital数字银行与证券峰会2场平行峰会;吸引了近600位来自保险、银行、证券以及金融科技等行业的领导者和专家齐聚一堂,共同探讨金融业数…

docker 私有仓库

Docker 私有仓库 一、私有仓库搭建 # 1、拉取私有仓库镜像 docker pull registry # 2、启动私有仓库容器 docker run -id --nameregistry -p 5000:5000 registry # 3、打开浏览器 输入地址http://私有仓库服务器ip:5000/v2/_catalog,看到{"repositories&quo…

瑞熙贝通助力实验室原始记录无纸化管理

一、系统概述 随着互联网时代的发展,实验室管理信息化功能日趋完善,涉及维度也不断扩大,实现实验室原始记录的电子化和数字化,提高实验室工作质量和效率,是实验室发展大势所趋。在实验室信息管理系统得到日益广泛应用…

云计算:现代技术的基本要素

众所周知,在儿童教育的早期阶段,幼儿园都会传授塑造未来行为的一些基本准则。 今天,我们可以以类似的方式思考云计算:它已成为现代技术架构中的基本元素。云现在在数字交互、安全和基础设施开发中发挥着关键作用。云不仅仅是另一…

nodejs+vue+微信小程序+python+PHP的热带野生动物园景点预约订票系统的设计与实现-计算机毕业设计推荐

管理员是系统的管理者,拥有系统的所有权限,通过系统设定的账号和密码登录后对系统进行管理,包括密码修改、用户管理。新闻公告的管理、景点管理、订单管理。管理员登录中,通过用户的登录名和密码到热带野生动物园景点预约订票系统…

【数据结构】LRU缓存的简单模拟实现(leetcode力扣146LRU缓存)

文章目录 一、定义二、LRU模拟实现二、代码实现 一、定义 LRU是Least Recently Used的缩写,意思是最近最少使用,它是一种Cache替换算法。 Cache的容量有限,因此当Cache的容量用完后,而又有新的内容需要添加进来时, 就…