论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

论文题目:Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

来源:AAAI2024/实验室师兄/北航

方向:跨模态检索

开源地址:https://github.com/lerogo/aaai24_itr_cusa

摘要

近年来,目前的图像-文本检索方法取得了惊人的性能。然而,图文检索仍然面临着两个问题:模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态单模态软标签对齐(CUSA)。

我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块,这意味着它可以很容易地应用于现有的图像文本检索模型,而不需要改变它们的原始架构。

在各种图像-文本检索模型和数据集上的大量实验,证明我们的方法可以提高图像-文本检索的性能,并达到新的SOTA。同时,我们的方法可以提升图文检索模型的单模态检索效果,从而使其可以完成通用检索

方法

本文的主要方法可以归纳为如下的图:

img

准备工作

一般的图文检索使用图搜文和文搜图两个对比学习损失作为训练目标,对于每一个batch内的N个图文对,首先得到文和图的softmax归一化相似度分布 Q i j i 2 t Q_{ij}^{i2t} Qiji2t Q i j t 2 i Q_{ij}^{t2i} Qijt2i

img

img

利用这两个相似度分布与相应的0/1标签使用交叉熵(匹配为1,不匹配为0),得到文搜图和图搜文的对比学习损失,两者取平均得到一般的最终优化目标 L i t c \mathcal{L}_{itc} Litc

img

特征提取

本文使用 unicom 作为图像教师模型,mpnet 作为文本教师模型,这两个模型都是各自领域的先进模型。值得注意的是,这两个教师模型可以换成其他任意的文本表征模型/图像表征模型。

跨模态软标签对齐

首先利用两个教师模型得到每个batch内不同图像间的归一化相似度,作为目标分布

img

同理可以得到文本间的归一化相似度 P i j t 2 t P_{ij}^{t2t} Pijt2t ,之后用 P i j i 2 i P_{ij}^{i2i} Piji2i 指导图搜文相似度分布,后用 P i j t 2 t P_{ij}^{t2t} Pijt2t 指导文搜图相似度分布,使用KL散度作为优化目标

img

单模态软标签对齐

同样,我们可以使用图像间相似度和文本间相似度来作为目标,来约束图文模型的模态内相似度分布,首先得到待优化分布 $Q_{ij}^{i2i} $ 和 Q i j t 2 t Q_{ij}^{t2t} Qijt2t

img

之后类似的,使用KL散度作为优化目标对齐

img

训练目标

最终使用两个超参将三个损失组合在一起

img

实验

在MSCOCO和Flickr30K两个常见的图文检索数据集上,在各种架构的先进模型上均取得了提升

img

同时,在图像检索和文本STS任务和任务上,本文的方法也取得了一定提升,从而证明了通用检索的部分可行性

img

img

消融实验表明,CSA对于图文检索非常有效,USA则对于单模态检索非常有效,而两者叠加则可以让模型在各种检索任务上都具有更好的性能

img


大家好,我是NLP研究者BrownSearch,如果你觉得本文对你有帮助的话,不妨点赞收藏支持我的创作,您的正反馈是我持续更新的动力!如果想了解更多LLM/检索的知识,记得关注我!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保障低压设备安全!中国星坤连接器精密工艺解析!

在现代电子设备中,连接器扮演着至关重要的角色,它们是电子系统之间沟通的桥梁。随着技术的发展,对连接器的需求也在不断提升,特别是在低电压应用领域。中国星坤最新推出的低压连接器,以其精密性和安全性,为…

Kafka Producer发送消息流程之分区器和数据收集器

文章目录 1. Partitioner分区器2. 自定义分区器3. RecordAccumulator数据收集器 1. Partitioner分区器 clients/src/main/java/org/apache/kafka/clients/producer/KafkaProducer.java,中doSend方法,记录了生产者将消息发送的流程,其中有一步…

书生浦语-大模型平台学习-环境搭建01

任务:完成SSH连接与端口映射并运行hello_world.py 详细步骤详见:https://github.com/InternLM/Tutorial/blob/camp3/docs/L0/Linux/readme.md 1、InternStudio介绍 InternStudio 是大模型时代下的云端算力平台。基于 InternLM 组织下的诸多算法库支持…

CentOS快速安装Docker(腾讯镜像源)

这里是引用"> 1、卸载旧版本的 Docker yum list installed | grep docker yum -y remove docker-ce-cli.x86_64 yum -y remove docker-ce.x86_64 yum -y remove containerd.io2、安装相关依赖 yum install -y yum-utils device-mapper-persistent-data lvm23、添加 …

嵌入式人工智能(9-基于树莓派4B的PWM-LED呼吸灯)

1、PWM简介 (1)、什么是PWM 脉冲宽度调制(PWM),是英文“Pulse Width Modulation”的缩写,简称脉宽调制,是在具有惯性的系统中利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术,广泛应用在从测量、通信到功率控制…

学习大数据DAY17 PLSQL基础语法6和Git的基本操作

目录 包 存储过程调试功能 作业 阶段复习作业 Git课程目录 什么是版本控制 没有版本控制的缺点 常见的版本工具 版本控制分类 1. 本地版本控制 2. 集中版本控制 3. 分布式版本控制 Git与SVN主要区别 Git软件安装及配置 Windows系统安装Git 安装Tortoise Git(乌龟…

降Compose十八掌之『震惊百里』| Animations

公众号「稀有猿诉」 原文链接 降Compose十八掌之『震惊百里』| Animations 动画对于UI来说无疑是最重要的核心功能,它能够让UI变得生动有吸引力。适当的使用动画可以提升UI的流畅性,让UI体验更为顺滑。在Jetpack Compose中有丰富的函数可以用来实…

六西格玛设计:以客户为中心,驱动企业持续创新

在当今竞争激烈的市场环境中,企业要想脱颖而出,就必须在产品质量、服务效率和客户满意度上不断追求卓越。六西格玛设计(Six Sigma Design)作为一种高度规范化的管理方法,正逐步成为众多企业实现这一目标的重要工具。张…

NSSCTF中24网安培训day2中web题目【下】

[NISACTF 2022]easyssrf 这道题目考察的是php伪协议的知识点 首先利用file协议进行flag查找 file:///flag.php 接着我们用file协议继续查找fl4g file:///fl4g 接着我们访问此文件,得到php代码如下 这里存在着stristr的函数&#x…

Linux中的环境变量

一、基本概念 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数。 如:我们在编写C/C代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但是照样可以链接成功&#xff…

Cesium能做啥,加载哪些数据源,开源免费用商用吗?这里告诉你。

很多小伙伴对Cesium是什么,一知半解,本文是基础知识的扫盲,为大家分享cesium是什么、能做什么、默认数据是什么,为什么首先要进行数据加载,要加载哪些数据,希望通过这些带你入个门,欢迎点赞评论…

vue仿甘特图开发工程施工进度表

前言 本文是根据项目实际开发中一个需求开发的demo,仅用了elementUI,可当作独立组件使用,C V即用。 当然没考虑其他的扩展性和一些数据的校验,主要是提供一个处理思路,有需要的小伙伴可以直接复制;本demo的…

高职院校人工智能人才培养成果导向系统构建、实施要点与评量方法

一、引言 近年来,人工智能技术在全球范围内迅速发展,对各行各业产生了深远的影响。高职院校作为培养高技能人才的重要基地,肩负着培养人工智能领域专业人才的重任。为了适应社会对人工智能人才的需求,高职院校需要构建一套科学、…

【node-RED 4.0.2】连接 Oracle 数据库踩坑解决,使用模组:node-red-contrib-agur-connector

关于 Oracle Oracle 就好像一张吸满水的面巾纸,你稍一用力它就烂了。 PS:我更新了更好的模组的教程,这篇已经是旧款的教程,但是它仍旧包含了必要的配置环境变量等操作。 最新的模组教程:node-red-contrib-agur-connec…

AI时代:探索个人潜能的新视角

文章目录 Al时代的个人发展1 AI的高速发展意味着什么1.1 生产力大幅提升1.2 生产关系的改变1.3 产品范式1.4 产业革命1.5 Al的局限性1.5.1局限一:大模型的幻觉1.5.2 局限二:Token 2 个体如何应对这种改变?2.1 职场人2.2 K12家长2.3 大学生2.4 创业者 3 人工智能发展…

解决vue3中el-input在form表单按下回车刷新页面

问题:在input框中点击回车之后不是调用我写的回车事件,而是刷新页面 原因: 如果表单中只有一个input 框则按下回车会直接关闭表单 所以导致刷新页面 解决方法 : 再写一个input 表单 ,并设置style"display:none&…

SimMIM:一个类BERT的计算机视觉的预训练框架

1、前言 呃…好久没有写博客了,主要是最近时间比较少。今天来做一期视频博客的内容。本文主要讲SimMIM,它是一个将计算机视觉(图像)进行自监督训练的框架。 原论文:SimMIM:用于掩码图像建模的简单框架 (a…

解决虚拟机与主机ping不通,解决主机没有vmware网络

由于注册表文件缺失导致,使用这个工具 下载cclean 白嫖就行 https://www.ccleaner.com/ 是 点击修复就可以了

防火墙双机热备带宽管理综合实验

一、实验拓扑 二、实验要求 12,对现有网络进行改造升级,将当个防火墙组网改成双机热备的组网形式,做负载分担模式,游客区和DMZ区走FW3,生产区和办公区的流量走FW1 13,办公区上网用户限制流量不超过100M&am…

技术速递|Let’s Learn .NET Aspire – 开始您的云原生之旅!

作者:James Montemagno 排版:Alan Wang Let’s Learn .NET 是我们全球性的直播学习活动。在过去 3 年里,来自世界各地的开发人员与团队成员一起学习最新的 .NET 技术,并参加现场研讨会学习如何使用它!最重要的是&#…