论文题目:Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval
来源:AAAI2024/实验室师兄/北航
方向:跨模态检索
开源地址:https://github.com/lerogo/aaai24_itr_cusa
摘要
近年来,目前的图像-文本检索方法取得了惊人的性能。然而,图文检索仍然面临着两个问题:模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态和单模态软标签对齐(CUSA)。
我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块,这意味着它可以很容易地应用于现有的图像文本检索模型,而不需要改变它们的原始架构。
在各种图像-文本检索模型和数据集上的大量实验,证明我们的方法可以提高图像-文本检索的性能,并达到新的SOTA。同时,我们的方法可以提升图文检索模型的单模态检索效果,从而使其可以完成通用检索。
方法
本文的主要方法可以归纳为如下的图:
准备工作
一般的图文检索使用图搜文和文搜图两个对比学习损失作为训练目标,对于每一个batch内的N个图文对,首先得到文和图的softmax归一化相似度分布 Q i j i 2 t Q_{ij}^{i2t} Qiji2t 和 Q i j t 2 i Q_{ij}^{t2i} Qijt2i
利用这两个相似度分布与相应的0/1标签使用交叉熵(匹配为1,不匹配为0),得到文搜图和图搜文的对比学习损失,两者取平均得到一般的最终优化目标 L i t c \mathcal{L}_{itc} Litc
特征提取
本文使用 unicom 作为图像教师模型,mpnet 作为文本教师模型,这两个模型都是各自领域的先进模型。值得注意的是,这两个教师模型可以换成其他任意的文本表征模型/图像表征模型。
跨模态软标签对齐
首先利用两个教师模型得到每个batch内不同图像间的归一化相似度,作为目标分布
同理可以得到文本间的归一化相似度 P i j t 2 t P_{ij}^{t2t} Pijt2t ,之后用 P i j i 2 i P_{ij}^{i2i} Piji2i 指导图搜文相似度分布,后用 P i j t 2 t P_{ij}^{t2t} Pijt2t 指导文搜图相似度分布,使用KL散度作为优化目标
单模态软标签对齐
同样,我们可以使用图像间相似度和文本间相似度来作为目标,来约束图文模型的模态内相似度分布,首先得到待优化分布 $Q_{ij}^{i2i} $ 和 Q i j t 2 t Q_{ij}^{t2t} Qijt2t
之后类似的,使用KL散度作为优化目标对齐
训练目标
最终使用两个超参将三个损失组合在一起
实验
在MSCOCO和Flickr30K两个常见的图文检索数据集上,在各种架构的先进模型上均取得了提升
同时,在图像检索和文本STS任务和任务上,本文的方法也取得了一定提升,从而证明了通用检索的部分可行性。
消融实验表明,CSA对于图文检索非常有效,USA则对于单模态检索非常有效,而两者叠加则可以让模型在各种检索任务上都具有更好的性能
大家好,我是NLP研究者BrownSearch,如果你觉得本文对你有帮助的话,不妨点赞或收藏支持我的创作,您的正反馈是我持续更新的动力!如果想了解更多LLM/检索的知识,记得关注我!