论文作者:Ziyang Wang,Yi-Lin Sung,Feng Cheng,Gedas Bertasius,Mohit Bansal
作者单位:UNC Chapel Hill
论文链接:http://arxiv.org/abs/2309.10091v1
项目链接:https://github.com/Ziyang412/UCoFiA
内容简介:
1)方向:视频文本检索
2)应用:视频文本检索
3)背景:传统的视频文本检索方法在检索正确的视频时存在挑战,需要能够理解高级(场景)和低级(物体)视觉线索以及它们与文本查询的关系。
4)方法:本文提出一种统一的粗到细对齐模型UCoFiA,该模型在不同粒度级别上捕捉跨模态相似性信息,并应用交互式相似性聚合模块(ISA)来考虑不同视觉特征的重要性,以获取每个粒度的相似性得分。最后,应用Sinkhorn-Knopp算法对每个级别的相似性进行归一化,以解决不同级别上的过度和不足表示问题。
5)结果:UCoFiA在多个视频文本检索基准上优于先前的基于CLIP的方法,在MSR-VTT、Activity-Net和DiDeMo上的文本到视频检索R@1分别提高了2.4%、1.4%和1.3%。代码可在https://github.com/Ziyang412/UCoFiA上公开获取。