AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.01.01-2024.01.10

论文目录~

1.RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM
2.Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex
3.3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding
4.Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
5.Learning to Prompt with Text Only Supervision for Vision-Language Models
6.Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
7.Prompt Decoupling for Text-to-Image Person Re-identification
8.Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions
9.Few-shot Adaptation of Multi-modal Foundation Models: A Survey
10.MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning
11.Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training
12.DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever
13.BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

1.RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM

标题:机器人融合：通过 SAM 实现稳健的多模态 3D 物体检测

author:Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang

date Time:2024-01-08

paper pdf:http://arxiv.org/pdf/2401.03907v1

摘要：
多模态三维物体探测器致力于为自动驾驶（AD）探索安全可靠的感知系统。然而，虽然在干净的基准数据集上实现了最先进（SOTA）的性能，但它们往往忽略了真实世界环境的复杂性和恶劣条件。同时，随着视觉基础模型（VFM）的出现，为提高自动驾驶中多模态三维物体检测的鲁棒性和通用性带来了机遇和挑战。因此，我们提出了 RoboFusion，一个利用视觉基础模型（如 SAM）来解决分布外噪声（OOD）问题的稳健框架。首先，我们将原始的 SAM 改用于自动驾驶场景，命名为 SAM-AD。为了使 SAM 或 SAM-AD 与多模态方法保持一致，我们还引入了 AD-FPN，用于对 SAM 提取的图像特征进行上采样。我们采用小波分解对深度引导图像进行去噪处理，以进一步降低噪声和天气干扰。最后，我们采用自我注意机制对融合特征进行自适应重新加权，在增强信息特征的同时抑制多余噪声。总之，我们的 RoboFusion 利用 VFM 的泛化和鲁棒性逐步降低噪声，从而增强了多模态 3D 物体检测的复原力。因此，正如 KITTI-C 和 nuScenes-C 基准所证明的那样，我们的 RoboFusion 在高噪声场景中实现了最先进的性能。

2.Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex

标题:与 LLM 一致：用于编码视觉皮层 fMRI 活动的新型多模式训练范式

author:Shuxiao Ma, Linyuan Wang, Senbao Hou, Bin Yan

date Time:2024-01-08

paper pdf:http://arxiv.org/pdf/2401.03851v1

摘要：
最近，预先训练好的大型语言模型（LLM）（如 GPT-4）大受欢迎，席卷了整个自然语言处理（NLP）和计算机视觉（CV）领域。这些 LLM 展示了先进的多模态理解能力，并在各种基准测试中表现出强劲的性能。LLM 已开始体现人工通用智能的特征，这对于在视觉编码模型中增强类脑特征具有重要指导意义。因此，本文提出了一种新的多模态训练范式，与 LLM 保持一致，用于编码视觉皮层中的 fMRI 活动。基于这一范式，我们在 fMRI 数据中训练了一个编码模型，命名为 LLM-视觉编码模型（LLM-VEM）。具体来说，我们利用 LLM（miniGPT4）为所有刺激图像生成描述性文本，形成高质量的文本描述集。此外，我们使用预先训练好的文本编码器（CLIP）来处理这些详细描述，从而获得文本嵌入特征。接下来，我们使用对比度损失函数最小化图像嵌入特征和文本嵌入特征之间的距离，完成刺激图像和文本信息的配准操作。在预先训练的 LLM 的帮助下，这一配准过程有助于更好地学习视觉编码模型，从而获得更高的精度。最终的实验结果表明，我们的训练范式大大有助于提高视觉编码模型的性能。

3.3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding

标题:3DMIT：用于场景理解的三维多模态指令调整

author:Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu

publish:9 pages, 5 figures

date Time:2024-01-06

paper pdf:http://arxiv.org/pdf/2401.03201v2

摘要：
多模态大语言模型（MLLMs）在理解视觉和语言信息方面的巨大潜力已得到广泛认可。然而，与二维场景相比，三维场景-语言对非常稀少，再加上现有的大型语言模型在理解三维场景方面的不足，这些都构成了巨大的挑战。为此，我们收集并构建了一个广泛的数据集，其中包括 75K 个为三维场景量身定制的指令-响应对。该数据集涉及与三维 VQA、三维接地和三维对话相关的任务。为了进一步加强将三维空间信息整合到 LLM 中，我们引入了一种新颖高效的提示调整范式–3DMIT。该范例消除了三维场景和语言之间的对齐阶段，并利用包括整个场景和分割对象在内的三维模态信息扩展了指令提示。我们评估了我们的方法在三维场景领域各种任务中的有效性，发现我们的方法是丰富 LLMs 理解三维世界的战略手段。我们的代码见 https://github.com/staymylove/3DMIT。

4.Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

标题:结合视觉专家解决多模态大型语言模型中的信息丢失问题

author:Xin He, Longhui Wei, Lingxi Xie, Qi Tian

date Time:2024-01-06

paper pdf:http://arxiv.org/pdf/2401.03105v2

摘要：
多模态大语言模型（MLLM）正在经历快速发展，近几个月来产生了大量值得关注的贡献。目前的主流趋势是采用数据驱动方法，收集各种教学数据集。然而，在这些方法中仍然存在一个普遍的挑战，特别是与有限的视觉感知能力有关的挑战，因为从输入中提取视觉信息采用的是类似 CLIP 的编码器。虽然这些编码器已在数十亿图像-文本对上进行了预先训练，但它们仍然面临着信息丢失的困境，因为文本标题只能部分捕捉图像中描述的内容。针对这一局限性，本文提出通过专家知识混合增强机制来提高 MLLM 的视觉感知能力。具体来说，我们引入了一种新方法，将多任务编码器和视觉工具融入到现有的 MLLMs 训练和推理管道中，旨在为视觉输入提供更全面、更准确的总结。广泛的实验评估了该方法在推进 MLLMs 方面的有效性，展示了通过整合视觉专家所实现的视觉感知改进。

5.Learning to Prompt with Text Only Supervision for Vision-Language Models

标题:视觉语言模型在纯文本监督下学习提示

author:Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer, Luc Van Gool, Federico Tombari

publish:Project Page: https://muzairkhattak.github.io/ProText/

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02418v1

摘要：
CLIP 等基础视觉语言模型因其出色的泛化能力，正在成为视觉领域的新典范。然而，如何在保持泛化能力的同时将这些模型适用于下游任务仍然是一个挑战。在文献中，有一类方法是通过学习视觉信息的提示来调整 CLIP。这些方法虽然有效，但大多数都需要标注数据，这并不现实，而且由于对源数据的过度拟合，它们往往难以泛化到新的数据集。另一种方法是从大型语言模型（LLM）中生成类别描述，然后进行提示集合，从而采用免训练方法。然而，这些方法通常会生成特定类别的提示信息，而这些信息无法转移到其他类别，因此为每个类别单独生成 LLM 描述的成本较高。在这项工作中，我们建议将这两种方法的优势结合起来，只使用从 LLM 派生的文本数据来学习提示语。由于没有图像，对提示语进行监督训练并非易事，因此我们开发了一种训练方法，允许提示语从 LLM 数据中提取丰富的上下文知识。此外，通过将 LLM 上下文数据映射到所学的提示语中，还可以将提示语零次转移到新的类别和数据集，从而降低 LLM 提示语工程成本。据我们所知，这是第一项使用纯文本数据学习通用提示的工作。我们在 4 个基准上进行了广泛的评估，结果表明我们的方法优于之前的集合方法，同时与使用标记图像的方法相比也具有竞争力。我们的代码和预训练模型可在 https://github.com/muzairkhattak/ProText 上获取。

6.Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

标题:通过纯文本训练挖掘细粒度图像-文本对齐，实现零镜头字幕制作

author:Longtian Qiu, Shan Ning, Xuming He

publish:AAAI 2024.Open sourced, Code and Model Available

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02347v1

摘要：
图像标题旨在生成描述性的、有意义的图像文本描述，从而实现广泛的视觉语言应用。先前的研究表明，利用对比图像语言预训练（CLIP）的强大功能，为实现 "零拍摄 "字幕提供了一种很有前景的方法，从而消除了对昂贵的字幕注释的需求。然而，在 CLIP 的潜在空间中广泛观察到的模态差距会破坏配对图像-文本特征之间的对齐，从而损害零镜头字幕的性能。为了解决这个问题，我们对 CLIP 潜在空间进行了分析，得出了两个发现。首先，我们观察到，由于文本描述中固有的信息损失，CLIP 的图像子区域视觉特征可以更接近配对字幕。此外，我们还表明，配对图像与文本之间的模态差距可根据经验建模为零均值高斯分布。受这些发现的启发，我们提出了一种新颖的零镜头图像字幕框架，通过纯文本训练来缩小模态差距。特别是，我们引入了子区域特征聚合，以利用局部区域信息，从而为匹配文本表示生成紧凑的视觉表示。此外，我们还采用了噪声注入和 CLIP 重排策略来提高字幕性能。我们还扩展了我们的框架，建立了零镜头 VQA 管道，证明了其通用性。通过在 MSCOCO、Flickr30k 和 VQAV2 等常见字幕和 VQA 数据集上的广泛实验，我们表明我们的方法实现了显著的性能提升。代码见 https://github.com/Artanic30/MacCap。

7.Prompt Decoupling for Text-to-Image Person Re-identification

标题:文本到图像的人员再识别的提示解耦

author:Weihao Li, Lei Tan, Pingyang Dai, Yan Zhang

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02173v1

摘要：
文本到图像的人物再识别（TIReID）旨在通过文本描述查询从图像库中检索目标人物。最近，像 CLIP 这样的预训练视觉语言模型引起了广泛关注，并因其强大的语义概念学习能力和丰富的多模态知识而被广泛用于这一任务。然而，最近基于 CLIP 的 TIReID 方法通常依赖于对整个网络的直接微调，以使 CLIP 模型适应 TIReID 任务。虽然这些方法在这一课题上表现出了很强的竞争力，但由于它们必须同时进行领域适应和任务适应，因此是次优的。为了解决这个问题，我们尝试在训练阶段将这两个过程分离开来。具体来说，我们引入了及时调整策略来实现领域适应，并提出了一种两阶段训练方法来分离领域适应和任务适应。在第一阶段，我们冻结了 CLIP 的两个编码器，只专注于优化提示，以缓解 CLIP 原始训练数据与下游任务之间的领域差距。在第二阶段，我们保留固定的提示语，并对 CLIP 模型进行微调，以优先捕捉更适合 TIReID 任务的细粒度信息。最后，我们在三个广泛使用的数据集上评估了我们方法的有效性。与直接微调方法相比，我们的方法取得了显著的改进。

8.Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions

标题:利用文本描述调整 VLM 改进零点分类

author:Oindrila Saha, Grant Van Horn, Subhransu Maji

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02460v1

摘要：
现有视觉语言模型（VLM）（如 CLIP）的零拍性能受限于特定领域中大规模、对齐的图像和文本数据集的可用性。在这项工作中，我们利用两个互补的信息来源–大型语言模型（LLM）生成的类别描述和丰富的细粒度图像分类数据集–来提高视觉语言模型在细粒度领域的零点分类性能。在技术方面，我们开发了利用这种 "袋级 "图像-文本监督来训练 VLM 的方法。我们发现，仅仅在测试时使用这些属性并不能提高性能，但我们的训练策略，例如在 iNaturalist 数据集上的训练策略，使鸟类和花卉等新类别的零点分类准确率平均提高了 4-5%。在使用类别子集对模型进行微调的领域中，也观察到了类似的改进。通过以各种方式提示 LLM，我们生成了能够捕捉视觉外观、栖息地和地理区域的描述，并将其与现有属性（如类别的分类结构）配对。我们系统地评估了它们在自然领域中改进零点分类的能力。我们的研究结果表明，地理先验同样有效，而且与视觉外观互为补充。我们的方法还优于之前基于提示的 VLM 调整工作。我们计划发布由 7 个数据集组成的基准，这将有助于未来的零镜头识别研究。

9.Few-shot Adaptation of Multi-modal Foundation Models: A Survey

标题:多模式地基模型的快速适应：调查

author:Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai, Xiaocong Zhou, Delong Chen

date Time:2024-01-03

paper pdf:http://arxiv.org/pdf/2401.01736v2

摘要：
多模态（视觉语言）模型（如 CLIP）正在取代传统的监督预训练模型（如基于 ImageNet 的预训练），成为新一代视觉基础模型。这些模型具有从数十亿互联网图像-文本对中学习到的稳健、统一的语义表征，可以零误差的方式应用于各种下游任务。然而，在医疗成像和遥感等一些细粒度领域，多模态基础模型的性能往往不尽如人意。因此，许多研究人员开始探索这些模型的零点适应方法，并逐渐衍生出三种主要的技术方法：1) 基于提示的方法；2) 基于适配器的方法；3) 基于外部知识的方法。然而，这一快速发展的领域成果众多，却没有一个全面的调查来系统整理研究进展。因此，在本调查报告中，我们介绍并分析了多模态模型少次适应方法的研究进展，总结了常用的数据集和实验设置，并比较了不同方法的结果。此外，由于现有方法缺乏可靠的理论支持，我们推导出了多模态模型的少次适应泛化误差约束。该定理揭示了多模态基础模型的泛化误差受制于三个因素：领域差距、模型容量和样本大小。在此基础上，我们从以下几个方面提出了三种可能的解决方案：1) 自适应领域泛化；2) 自适应模型选择；3) 自适应知识利用。

10.MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning

标题:MLIP：利用屏蔽式局部表征学习进行医学语言图像预训练

author:Jiarun Liu, Hong-Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang

publish:5 pages, 3 figures

date Time:2024-01-03

paper pdf:http://arxiv.org/pdf/2401.01591v1

摘要：
现有的对比语言-图像预训练旨在通过匹配丰富的图像-文本对来学习联合表征。然而，医学数据集中图像-文本对的数量通常比自然数据集少很多。此外，医学图像-文本对往往涉及大量复杂的细粒度对应关系。本文旨在通过引入多对多局部关系建模来捕捉更密集的监督，从而提高数据效率。更具体地说，我们提出了一种医学语言-图像预训练（MLIP）框架，通过片段-句子匹配更有效地利用有限的图像-文本医学数据。此外，我们还引入了一种具有语义完整性估计功能的屏蔽对比学习策略，以减少图像中的冗余，同时保留基本语义。我们的评估结果表明，MLIP 在零/少镜头分类和少镜头分割任务中的表现远远优于之前的研究成果。

11.Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training

标题:冻结骨干强健医学视觉语言预训练的参数高效对比方法

author:Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci

publish:Accepted by ICASSP 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01179v1

摘要：
现代医疗保健通常利用放射图像和文本报告进行诊断，这就鼓励使用视觉语言自监督学习（VL-SSL）和大型预训练模型来学习多功能医疗视觉表征。然而，现有的大多数 VL-SSL 框架都是端到端训练，计算量大，而且会丢失预训练编码器中的重要先验信息。为了解决这两个问题，我们引入了骨干不可知的 Adaptor 框架，该框架通过冻结预先训练好的图像和文本编码器来保存医学知识，并采用轻量级 Adaptor 模块进行跨模态学习。对三个数据集的医学图像分类和分割任务进行的实验表明，与当前的预训练方法相比，我们的框架在将可训练参数减少 90% 以上的同时，还提供了极具竞争力的性能。值得注意的是，在医学图像分割方面，Adaptor 只需使用 1% 的数据进行微调，其性能就超过了在完整数据集上训练的几种基于变换器的方法。

12.DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever

标题:DialCLIP：让 CLIP 成为多模式对话检索器

author:Zhichao Yin, Binyuan Hui, Min Yang, Fei Huang, Yongbin Li

publish:ICASSP 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01076v2

摘要：
最近，预训练视觉语言模型取得了长足的进步，大大增强了多模态对话系统的能力。通过对下游任务进行微调，这些模型已显示出显著的改进。然而，现有的预训练模型主要侧重于有效捕捉视觉和语言模式之间的一致性，往往忽略了对话语境的复杂性。在本文中，我们为多模态对话检索提出了一种名为 DialCLIP 的参数高效提示调整方法。具体来说，我们的方法引入了多模态上下文提示生成器来学习上下文特征，然后将这些特征提炼成预先训练好的视觉语言模型 CLIP 中的提示。此外，我们还引入了领域提示，以减少来自下游对话数据的盘重复。为了方便各种类型的检索，我们还设计了多个专家来学习从 CLIP 输出到多模态表示空间的映射，每个专家负责一种特定的检索类型。大量实验表明，在两个广受认可的基准数据集（即 PhotoChat 和 MMDialog）上，DialCLIP 只需调整总参数的 0.04%，就能达到最先进的性能。这些结果凸显了我们提出的方法的功效和效率，强调了它在推动多模态对话检索领域发展的潜力。

13.BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

标题:BEV-CLIP：针对自动驾驶中复杂场景的多模式 BEV 检索方法

author:Dafeng Wei, Tian Gao, Zhengyu Jia, Changwei Cai, Chengkai Hou, Peng Jia, Fu Liu, Kun Zhan, Jingchen Fan, Yixing Zhao, Yang Wang

publish:Under review of CVPR 2024

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01065v1

摘要：
自动驾驶对复杂场景数据检索的需求与日俱增，特别是随着乘用车具备了在城市环境中导航的能力，解决长尾场景问题势在必行。同时，在已有的二维图像检索方法下，场景检索可能会出现一些问题，如缺乏全局特征表示、文本检索能力不足等。为了解决这些问题，我们提出了首个多模态鸟瞰图（BEV）检索方法–以描述性文本为输入来检索相应的场景。该方法应用了大语言模型（LLM）的语义特征提取能力，便于对大量文本描述进行零点检索，并结合了知识图谱中的半结构化信息，以提高语言嵌入的语义丰富度和多样性。我们的实验结果表明，在 NuScenes 数据集上，文本到 BEV 特征检索的准确率为 87.66%。我们论文中的演示案例证明，我们的检索方法在识别某些长尾角落场景方面也很有效。