OmniSearch:Benchmarking Multimodal RAG with Dynamic VQA Dataset and Self-adaptive Planning Agent
文章链接:2411.02937
Github链接:Alibaba-NLP/OmniSearch: Repo for Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent
摘要翻译:
多模态检索增强生成(mRAG)在缓解多模态大型语言模型(MLLMs)固有“幻觉”问题中发挥重要作用。尽管现有启发式mRAG方法通过预定义固定检索流程取得一定成果,但存在两大缺陷:(1)非自适应检索查询,(2)过载检索查询。当前知识型视觉问答(VQA)数据集无法充分反映这些缺陷,因其所需知识大多可通过标准两步检索轻松获取。为填补数据集缺口,我们首先构建了Dyn-VQA数据集,包含三类需动态调整查询、工具和时间的复杂知识检索策略的“动态”问题:(1)答案快速变化的问题,(2)需多模态知识的问题,(3)多跳问题。实验表明,现有启发式mRAG因僵化的检索流程难以应对动态问题。为此,我们提出首个用于多模态检索的自适应规划智能体OmniSearch,其核心思想是模拟人类解决问题时动态分解复杂多模态问题为带检索动作的子问题链。大量实验验证了OmniSearch的有效性,并为mRAG的发展提供了方向。
本文PDF版本笔记
可通过链接直接下载
建议直接下载PDF版本笔记
,可读性更强,已设置永久免费下载
一、引言
1.1 研究背景
(一)方法角度——OmniSearch
现有启发式mRAG方法
-
固定检索流程:将多模态输入转化为单一主模态(通常为文本)后进行单次检索。
-
策略缺陷:
-
非自适应检索查询:固定的检索流程和查询结构,无法根据上下文动态调整检索策略
这种僵化策略无法适应问题中动态变化的上下文或中间发现,阻碍模型重新检索以进一步理解、验证或重新思考问题。
- 无法应对动态上下文:当问题涉及时效性知识(如电影上映日期)或多阶段推理时,固定检索无法根据中间结果重新检索。
- 知识验证能力缺失:检索结果可能包含过时或矛盾信息,但模型缺乏机制通过二次检索修正错误。
- 推理链断裂风险:多跳问题中,固定检索无法为后续子问题提供针对性知识,导致推理中断。
例如图2中问题(a)“他(Cillian Murphy)的最新电影是什么?”
固定检索返回多部作品(如《奥本海默》和《Small Things Like These》),但无法进一步检索上映日期并验证最新性。
-
过载检索查询:仅通过拼接图像中物体的文本描述与输入问题生成单一查询
单一查询包含多个检索维度,依赖简单的模态拼接,缺乏对检索目标的精细化拆分,引发模糊检索和冗余知识
- 维度混杂与模糊检索:单一查询承载多个检索维度(如同时查询两人票房),导致搜索引擎返回混合结果,无法区分个体信息。
- 冗余知识涌入:检索结果包含大量表面相关但非必要的信息(如两人的其他作品、个人经历等),干扰模型推理。
例如图2问题(c)“他们(演员贾玲和沈腾)中谁的票房更高?”
启发式方法可能生成包含两人票房检索意图的混合查询"Ling Jia, Teng Shen, Which one of them grossed more?",反而无法为每个维度提供精确知识。
如图1所示,面对需要复杂知识的现实问题时,现有启发式mRAG因其僵化性难以提供充分且精准的知识支持。
-
OmniSearch自适应规划智能体
-
设计动机 :解决启发式mRAG的僵化问题
-
核心思想:
- 模拟人类解决问题时动态分解
复杂多模态问题
为带检索动作的子问题链
的行为 - 在每一步中,OmniSearch根据问题解决状态和检索内容灵活调整下一步动作,目标包括深化对检索内容的理解、修正当前子问题的检索方式、提出下一个子问题等
- 模拟人类解决问题时动态分解
-
核心架构
-
规划代理:动态生成子问题链,调整检索动作(如验证、修正、扩展)。
-
检索器:支持多模态检索工具(网页搜索、图像搜索等)。
-
子问题求解器:基于检索内容生成反馈,可与任意MLLM协同工作。
-
-
创新点
-
即插即用性:与任意MLLM结合,增强复杂问题处理能力。
-
动态调整:根据检索结果实时优化策略,避免错误累积。
-
跨模态扩展:支持互联网级知识检索,覆盖多语言场景
-
(二)数据集角度——Dyn-VQA
传统VQA数据集的局限性——无法反映启发式mRAG方法的检索缺陷
- 主流知识型VQA数据集(如[2302.11713] INFOSEEK:基于维基百科知识库的RAG、[2206.01718] A-OKVQA:世界知识VQA数据集)仅覆盖两步内的文本知识检索,无法反映复杂动态问题的需求。
- 问题类型单一,多聚焦于物体属性查询

Dyn-VQA数据集的提出
-
构建目标:填补mRAG基准数据集缺口,覆盖动态知识检索场景。
-
数据集特点:
-
包含1,452个动态问题,分为三类:
-
答案快速变化的问题:此类问题的上下文知识频繁更新,检索内容可能混杂新旧知识难以区分,要求mRAG方法基于当前检索内容的反馈灵活规划补充检索,而非单次检索
-
多模态知识问题(跨模态检索需求):Dyn-VQA所需知识跨越多种模态,要求mRAG方法通过定制检索API跨模态检索,这与大多数用多模态问题获取文本知识的VQA数据集不同
-
多跳问题(需多步推理检索):Dyn-VQA问题需要不同推理步骤,要求mRAG方法执行多步检索,而现有VQA数据集主要聚焦于两步问题(通过文本识别视觉概念后回答单步文本问题)
-
-
强调真实世界知识,答案风格开放,标注过程包含人工校验和跨语言对齐。
-
内容定期更新,故内容可能有所变化,建议以最新情况为准:OmniSearch/dataset at main · Alibaba-NLP/OmniSearch
-
1.2 文章贡献
- 揭示现有基于VQA的mRAG基准无法反映现实问题需要动态知识检索的特性,提出包含三类动态问题的新型数据集Dyn-VQA;
- 在Dyn-VQA上对多种mRAG方法与主流MLLM的组合进行基准测试,证明其在动态问题中提供充分相关知识的缺陷;
- 提出OmniSearch,一种根据问题解决阶段和当前检索内容实时规划每个检索动作的自适应检索智能体;
- 通过大量实验验证了OmniSearch的有效性,并通过详细分析为mRAG的发展提供方向。
二、相关工作梳理
2.1 多模态LLM
分类 | 文献引用 | 核心贡献 |
---|---|---|
多模态大语言模型(MLLMs) | Achiam et al., 2023[2303.08774] GPT-4 Technical Report | 提出GPT-4V模型,实现多模态理解与生成能力的突破(视觉-语言对齐) |
Bai et al., 2023b[2308.12966] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond | 开发Qwen-VL模型,支持多模态理解、定位、文本阅读等多任务(多模态通用性) | |
Lu et al., 2024a[2403.05525] Deepseek-VL: Towards Real-World Vision-Language Understanding | 提出Deepseek-VL模型,增强真实场景下的多模态理解能力(现实场景适应性) | |
Dai et al., 2023[2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning | 通过指令调优技术实现通用视觉语言模型,支持多任务推理(跨模态指令泛化) | |
Liu et al., 2024c[2310.03744] Improved Baselines with Visual Instruction Tuning | 提出视觉指令微调技术,提升多模态模型基准性能(指令微调有效性验证) | |
Wang et al., 2023[2311.03079] CogVLM: Visual Expert for Pretrained Language Models | 开发CogVLM模型,通过视觉专家模块增强预训练语言模型的多模态能力(模块化设计) | |
幻觉缓解方法 | Liu et al., 2024a[2402.00253] A Survey on Hallucination in Large Vision-Language Models | 系统性综述大视觉语言模型幻觉问题,提出知识增强解决方案(幻觉问题综述) |
Bai et al., 2024[2404.18930] Hallucination of Multimodal Large Language Models: A Survey | 多模态大模型幻觉问题综述,强调数据与任务增强的重要性(多模态幻觉分析) | |
预训练技术 | Zhai et al., 2023[2310.01779] Halle-Switch: Rethinking and Controlling Object Existence Hallucinations in Large Vision Language Models for Detailed Caption | 提出Halle-Switch方法,通过预训练控制视觉模型中的物体存在幻觉(预训练去幻觉) |
指令微调技术 | Chai et al., 2024b[2401.07037] XCOT: Cross-Lingual Instruction Tuning for Cross-Lingual Chain-of-Thought Reasoning | 开发XCOT框架,通过跨语言指令微调增强多模态模型的链式推理能力(跨语言指令微调) |
Jain et al., [2312.14233] VCoder: Versatile Vision Encoders for Multimodal Large Language Models | 提出VCoDeR模型,通过灵活视觉编码器优化多模态指令微调效果(视觉编码器改进) | |
RLHF技术 | Sun et al., 2023[2309.14525] Aligning Large Multimodal Models with Factually Augmented RLHF | 结合事实增强的RLHF技术,提升多模态模型的事实准确性(事实增强RLHF) |
Yu et al., 2024[2312.00849] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback | 提出RLHF-V框架,通过细粒度人类反馈对齐多模态模型行为(细粒度反馈优化) | |
相关任务研究 | Yin et al., 2023[2306.13549] A Survey on Multimodal Large Language Models | 多模态大模型综述,涵盖技术进展与挑战(领域系统性总结) |
Wu et al., 2023[2311.13165] Multimodal Large Language Models: A Survey | 多模态检索增强生成技术综述(与mRAG直接相关) |
技术进展
- 里程碑模型
- GPT-4V(Achiam et al., 2023)的推出标志着多模态理解能力的突破,支持图文混合输入与复杂推理。
- 同期涌现的其他MLLMs包括:
- Qwen-VL(Bai et al., 2023b):支持多模态理解、定位、文本阅读等多任务。
- Deepseek-VL(Lu et al., 2024a):增强真实场景下的多模态理解能力。
- CogVLM( Wang et al., 2023):通过模块化设计引入视觉专家模块。
- Improved Baselines(Liu et al., 2024c):通过视觉指令微调提升模型性能。
- 任务表现
- 在视觉语言任务(Yin et al., 2023; Wu et al., 2023)中,MLLMs展现出超越传统模型的能力,如:
- 跨模态问答
- 图像描述生成
- 视觉推理与逻辑判断
- 核心挑战:幻觉问题
- 现象:面对真实场景问题时,MLLMs可能生成看似合理但包含事实错误的回答(如虚构实体、过时信息)。
- 原因:模型内部知识更新滞后于现实世界变化,且缺乏动态知识检索机制。
- 缓解幻觉的技术路径
预训练阶段
- Halle-Switch(Zhai et al., 2023):通过控制物体存在幻觉,优化详细图像描述生成。
指令微调阶段
- XCOT(Chai et al., 2024b):跨语言指令微调增强链式推理能力。
- VCoDeR(Jain et al., 2024):通过灵活视觉编码器优化多模态指令微调效果。
RLHF阶段
- Factually Augmented RLHF(Sun et al., 2023):结合事实增强提升模型事实准确性。
- RLHF-V(Yu et al., 2024):通过细粒度人类反馈对齐模型行为。
- 现有方法的局限性
- 训练成本高昂:MLLMs的参数量级(如GPT-4V)导致训练需消耗大量算力资源。
- 可扩展性受限:知识增强方法(如数据注入、任务设计)难以适配快速更新的现实知识。
mRAG的优势与趋势
- 动态知识整合:通过实时检索外部知识(如网页、数据库)补充模型内部知识盲区。
- 高效性:避免重新训练整个模型,通过检索模块快速更新知识。
- 成本可控:按需调用外部资源,降低长期维护成本。
2.2 多模态RAG
分类 | 文献引用 | 核心贡献 |
---|---|---|
直接视觉编码检索 | Gui et al., [2112.08614] KAT: A Knowledge Augmented Transformer for Vision-and-Language | 提出KAT模型,利用CLIP编码器进行视觉-语言知识增强 |
Lin et al., 2022[2206.01201] REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering | 提出Revive模型,强调区域视觉表示在知识型VQA中的重要性 | |
Radford et al., 2021[2103.00020] Learning Transferable Visual Models From Natural Language Supervision | 开发CLIP模型,实现跨模态特征对齐与检索 | |
文本转换检索 | Hu et al., 2023[2212.05221] REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory | 提出Reveal模型,整合多源多模态知识记忆进行预训练 |
Yang et al., 2022[2109.05014] An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA | 验证GPT-3在少样本知识型VQA中的表现,提出文本转换检索框架 | |
Lin & Byrne, 2022[2210.05568] Retrieval Augmented Visual Question Answering with Outside Knowledge | 提出RA-VQA框架,通过图像转文本后进行密集段落检索 | |
Lin et al., 2024[2309.17133] Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering | 改进RA-VQA-v2,增强多模态检索的细粒度交互 | |
相关引用文献 | Zhao et al., 2023[2303.10868] Retrieving Multimodal Information for Augmented Generation: A Survey | 多模态检索增强生成技术综述 |
Zhao et al., 2024[2402.19473] Retrieval-Augmented Generation for AI-Generated Content: A Survey | AIGC的检索增强生成技术综述 | |
Gao et al., 2023[2312.10997] Retrieval-Augmented Generation for Large Language Models: A Survey | 大语言模型的检索增强生成技术综述 | |
Lu et al., 2024b[2403.05525] Deepseek-VL: Towards Real-World Vision-Language Understanding | 开发Deepseek-VL模型,提升真实场景下的多模态理解 | |
Ye et al., 2024[2304.14178] mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality | 提出mPLUG-Owl模型,通过模块化设计增强多模态能力(多图序列的处理,值得关注) | |
Liu et al., 2024b[2310.03744] Improved Baselines with Visual Instruction Tuning | 视觉指令微调技术提升多模态模型基准性能 | |
Du et al., 2022[2103.10360] GLM: General Language Model Pretraining with Autoregressive Blank Infilling | 提出GLM模型,通过自回归填空预训练增强语言理解 | |
Chai et al., 2024a[2406.07436] MCeval: Massively Multilingual Code Evaluation | 开发多语言代码评估基准MCeval |
多模态检索增强生成(mRAG)方法(Zhao等人,2023;2024;Gao等人,2023)旨在通过外部资源为多模态大型语言模型(MLLMs)(Lu等人,2024b;Ye等人,2024;Liu等人,2024b;Du等人,2022;Chai等人,2024a)提供更全面、准确和最新的世界知识。实验证明,这些方法在各种视觉问答(VQA)数据集上有效,可根据检索方式分为两类:
直接视觉编码检索:使用视觉编码模型生成图像特征表示,通过特征相似度从知识库中检索知识。例如,KAT(Gui等人,2022)和Revive(Lin等人,2022)均采用CLIP(Radford等人,2021)的图像编码器进行检索。
文本转换检索:(Hu 等人,2023;Yang 等人,2022;Lin 等人,2024)首先利用现成工具将图像转换为文本表示,再进行文本检索。例如,RA-VQA(Lin & Byrne,2022)和RA-VQA-v2(Lin等人,2024)通过目标检测和图像描述模型将图像转文本后,执行密集段落检索获取相关文档。
OmniSearch的目标与现有方法一致,即为MLLMs提供相关且准确的知识,但在以下三方面存在差异:
- 多工具多步检索:针对每个问题规划多模态检索工具的组合动作,补充各模态缺失的知识。
- 动态策略调整:根据检索内容实时调整后续动作,而非仅依赖初始问题和图像生成查询。
- 互联网级检索范围:检索范围扩展至全网,提供复杂但更全面的知识。
2.3 可用于mRAG的VQA数据集
可结合多模态RAG综述(一)Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation-CSDN博客,其中整理了主流模态的数据集情况
分类 | 文献引用 | 核心贡献 |
---|---|---|
知识型VQA数据集 | Marino et al., 2019[1906.00067] OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge | 提出OK-VQA数据集,要求外部知识支持开放域视觉问答(早期知识型VQA基准) |
Jain et al., 2021[2103.05568] Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering | 开发S3VQA数据集,强调知识增强的视觉问答(替代搜索机制) | |
Schwenk et al., 2022[2206.01718] A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge | 提出A-OKVQA数据集,覆盖广泛的常识与世界知识(多领域知识融合) | |
Kil et al., 2024[2402.11058] II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering | 开发II-MMR数据集,聚焦多模态多跳推理(复杂推理能力评估) | |
Chen et al., 2024b[2309.04461] Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models | 提出链式推理评估数据集(多步推理能力验证) | |
维基百科关联数据集 | Chen et al., 2023[2302.11713] Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? | 开发InfoSeek数据集,基于维基百科强调细粒度实体知识(开放域细粒度知识) |
Dyn-VQA的提出动机
- 动态知识需求 需处理快速变化的知识(如实时事件、时效性数据)。
- 多模态融合 支持跨模态知识检索(如图文结合)。
- 复杂推理挑战 设计多跳问题,要求模型通过多步检索与推理解决复杂任务。
三、DYN-VQA 数据集
3.1 数据集构建
初步方案的不足
- 单步策略的不可行性
- 原计划直接要求注释者在查看示例后编写视觉问题,但实际操作中发现:
- 任务过载:注释者需同时完成图像搜索、问题设计、多标准匹配(如答案时效性、推理复杂度)等多任务。
- 效率低下:注释者陷入 “先找图→再想问题→再检查标准” 的循环,导致构造过程耗时且易出错。
- 原计划直接要求注释者在查看示例后编写视觉问题,但实际操作中发现:
- 质量控制困难
- 单步策略难以确保问题的多样性、动态性和跨模态需求,部分问题可能偏离数据集设计目标。
因此,作者优化了策略并将其分为三个步骤:
(一)文本问题撰写
注释者需撰写文本问题,并基于三维分类框架进行标注:
- 答案更新频率(快速/缓慢/不变):快速或缓慢以年为更新周期划分。
- 是否需要外部视觉知识(是/否):区分问题是否依赖输入图像外的视觉信息。
- 推理步骤(≤2跳/>2跳):以2跳为界,因现有VQA数据集多聚焦2跳问题。
注释者需结合过去六个月内新兴概念设计问题。由于不涉及视觉信息,标注难度显著降低。此外,还纳入了FreshQA(Vu等,2023)的英文问答实例。
FreshQA链接:freshllms/freshqa: Data and code for FreshLLMs (https://arxiv.org/abs/2310.03214),每周进行内容的更新
Dyn-VQA的最大特点在于其问题的答案所需知识会随时间动态更新,即Dyn-VQA中问题的答案会不断变化。因此,为确保Dyn-VQA长期成为社区有效的研究资源,需动态更新和维护其答案标注信息。基于对答案变化频率的分析,官方承诺每三个月更新一次Dyn-VQA的答案标注,以保证时效性。
半自动化更新机制具体如下:
- 检索最新知识:针对Dyn-VQA中的样本,首先通过搜索引擎获取相关文本知识。
- 模型辅助判断:使用Qwen1.5-72B等大语言模型(LLMs)比较最新知识与原答案,仅需判断答案是否需要更新(而非生成新答案,以降低模型负担)。
- 人工精确修正:以模型预测结果为基础,人工注释者结合常识、模型判断及检索到的最新知识,对样本答案进行精准更新。
该机制通过人机协作,既减轻了人工标注负担,又提升了数据更新的准确性。
截止
2025年3月19日
,官方更新情况:OmniSearch/dataset at main · Alibaba-NLP/OmniSearch![]()
(二)多模态改写
注释者将步骤1的文本问题转换为多模态问题:
- 用共指词替换视觉概念(如将“Kobe Bryant”改为“这位球员”)。
- 为修改后的问题匹配从Google获取的相关图像,禁止使用维基百科、百度百科等预训练语料库中的图片
(三)中英互译
通过Google Translate API对中英VQA实例进行互译,具体流程如下:
-
机器翻译:使用Google Translate API对中英VQA实例进行互译。
-
人工校对:人工检查并修正翻译结果,确保准确性(尤其是专有名词)。
-
过滤无效实例:筛除无法翻译或不适应中英语境的问题。
-
黄金查询标注:为每个问题标注“黄金查询”,即仅保留最后一跳问题,省略视觉概念引用和复杂中间推理。
黄金查询简化问题:通过标注黄金查询将原始问题简化为最后一步的问题(last-hop question),忽略中间的复杂推理和视觉概念引用,可直接针对最终需要的知识进行检索。
标注目的:通过这种简化,黄金查询消除了问题中的多模态干扰和推理复杂度,直接指向需要检索的核心知识,用于评估 mRAG 在理想场景下的最大能力。(之后实验阶段,可以看到golden query的作用,具体位置为本文5.1节和5.2节)
3.2 数据集分析
需要注意,数据集会定期更新,所以此处的描述不一定符合最新的数据集情况
(一)统计分析
![]() | ![]() |
(二)质量分析
尽管 Dyn-VQA 的规模可能不及其他数据集,但其质量、难度和单例成本均远超同类。
质量保证

- 双盲审核机制:
- 两名质量控制(QC)注释者独立复评数据集,验证每个实例的答案、领域、答案更新频率、推理步骤及是否需要外部视觉知识。
- 若两名QC同时判定数据错误,则过滤该实例。
- 覆盖维度:
- 答案准确性
- 领域归类合理性
- 答案更新频率标注
- 推理步骤复杂度
- 多模态知识需求
- 评估结果:表7展示了QC注释者#1和#2与初始标注的一致性,以及两名QC注释者之间的一致性。通过Fleiss’s Kappa(Fleiss, 1971)衡量的标注者间一致性均超过0.8,验证了标注结果的可靠性。
难度保证

- 现有 VQA 数据集的问题通常可在两步推理内解决,平均搜索次数不足 2 次。
- 此外,其他数据集完全未涉及文本查询图像检索,因其问题仅需图像中物体的文本描述,无需额外视觉知识。
- 人类在 Dyn-VQA 上的准确率最低,进一步印证了其挑战性。
多样性保证

评估方法
-
量化指标:计算数据集的成对余弦距离(使用sentence-transformers6作为编码器)。
- 若数据集中的问题和答案在语义空间中分布广泛(即余弦距离大),说明其覆盖了更丰富的知识类型、问题形式和推理模式。
-
对比对象:A-OKVQA、InfoSeek、VQAv2等知识型VQA数据集。
数据集 构建方式 问题类型 答案形式 余弦距离 InfoSeek 模板生成 细粒度实体属性查询 短文本(1-2词) 小(同质化) A-OKVQA 人工+模板 常识性问答 单字词或短句 较小 Dyn-VQA 人工策划 动态多模态多跳问题 长文本(复杂推理) 最大(多样)
Dyn-VQA通过人工策划、开放域设计和动态多模态需求,在语义分布、知识类型和答案复杂度上均超越现有数据集,其更大的余弦距离直接反映了更高的多样性。
四、OMNISEARCH 框架
4.1 基本框架
Self-Routing 是一种系统自主决策机制,通过动态调整信息处理路径以适应任务需求。在 OmniSearch
框架中,它指模型根据问题特征、实时反馈和环境变化,自主规划检索策略并动态调整路径的能力,类似人类解决复杂问题时的 “分步骤试错” 过程。
其核心思想是模仿人类将复杂问题逐步分解为一系列解决方案动作的过程,整体框架包含三个模块:
- Planning Agent:核心模块,负责生成子问题并基于真实世界反馈(检索内容或解决器输出)规划后续检索动作。
- Retriever:执行实际的检索动作(如图像搜索)。
- Sub-question Solver:根据检索内容生成子问题的反馈,并将其更新给规划代理。
具体代码可见OmniSearch/src/conversation_manager.py at main · Alibaba-NLP/OmniSearch
代码处理流程如下:
OmniSearch的训练版本与特性 (之后的实验中,两类模型也会单独比较)
-
专有模型(GPT-4V)
- 训练方式:通过提示工程激发动态规划与决策能力。
- 核心能力:闭源高性能多模态推理,支持复杂检索策略生成。
-
开源模型(Qwen-VL-Chat)
- 训练方式:
- 构建检索API训练数据集(整合GPT-4V合成数据与Infoseek数据集)。
- 采用多轮对话模式训练,模拟真实问题解决流程。
- 融入通用指令数据,保持模型的通用对话能力。
- 核心能力:开源可扩展,支持工具调用与多模态交互,适应工业场景的灵活部署需求。
- 训练方式:
与思维链(CoT)的本质区别
-
核心创新点
- 工具利用能力:
- 可调用检索API(如网页搜索、图像检索)与环境实时交互(Zhang et al., 2023[2311.11797] Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents)。
- 动态整合外部知识,应对时效性、多模态问题。
- 中间过程解耦:
- 将复杂问题分解为独立子步骤(如“图像分析→文本检索→答案验证”)。
- 支持分步验证与策略调整,提升推理透明度。
- 工具利用能力:
-
传统CoT方法的局限性
- 能力边界:仅依赖提示激发模型内部逻辑推理,无法调用外部工具。
- 知识获取:依赖预训练知识,无法动态更新(如实时数据、跨模态信息)。
- 推理结构:线性链式推理,中间过程不可解耦,难以适配复杂现实问题。
4.2 检索策略
检索相关代码可见于:OmniSearch/src/search_api.py at main · Alibaba-NLP/OmniSearch
其中搜索使用的是Google Search API
五、实验
5.1 实验设置
(一)mRAG基线
Single-hop 启发式 mRAG 基线
- 图像检索基线
- 方法:使用输入图像检索相似图像及描述性标题(caption),为 MLLMs 补充视觉知识。
- 优势:直接提供图像中物体的视觉特征(如颜色、形状)。
- 局限:仅依赖图像模态,无法结合文本语义。
- 文本检索基线
- 方法:通过输入文本问题进行网页搜索,返回前 k 条内容作为补充知识。
- 优势:快速获取文本型知识(如事实、统计数据)。
- 局限:忽略图像中的潜在信息,可能遗漏多模态关联。
目的:探索单模态 / 跨模态检索对 MLLMs 的增益,验证基础方法有效性。
Two-hop 启发式 mRAG 基线
- 核心流程
- 步骤 1:图像转文本
- 方式 A:取输入图像检索的 top-1 图像标题。
- 方式 B:使用图像描述模型生成文本(如 BLIP-2)。
- 步骤 2:联合检索
- 将图像文本与输入问题结合,调用网页搜索 API 获取知识。
- 步骤 1:图像转文本
- 对比优势
- 较单跳方法更精确,通过图像语义转换提升文本检索相关性。
- 局限性
- 固定流程依赖预设步骤(图像→文本→检索),无法动态调整路径。
- 图像描述模型误差可能导致后续检索偏差。
估计上限
- 黄金查询标注
- 通过黄金查询(golden query)评估多模态检索增强生成(mRAG)的理论性能上限。
- 验证在理想简化场景下,启发式 mRAG 能否为多模态大语言模型(MLLMs)提供准确知识。
- 模态优先策略
- 视觉需求:调用图像搜索 API(如输入图像检索相关事件图片)。
- 非视觉需求:调用网页搜索 API(如直接查询文本信息)。
- 意义
- 提供理想情况下 mRAG 的性能上限,验证动态问题的可解性。
- 为真实场景中的模型优化提供基准参考。
(二)MLLM选择
模型名称 | 模型类型 | 特点 | 说明 |
---|---|---|---|
Qwen-VL-7B-Chat | 开源多模态大模型 | 强视觉和文本识别能力 | 验证基础多模态模型的表现 |
GPT-4V | 闭源多模态大模型 | 跨模态理解与生成能力 | 闭源模型性能基准 |
Qwen-VL-Max | 闭源多模态大模型 | 更大参数量的多模态模型 | 评估模型规模对结果的影响 |
Qwen-7B-Chat | 开源文本-only LLM | 纯文本大语言模型 | 测试多模态RAG对文本模型的视觉问题解决能力 |
Deepseek-VL-7B-Chat | 开源多模态大模型 | 支持多模态理解与生成 | 深度求索团队开发的开源模型 |
VisualGLM-6B | 开源双语多模态模型 | 支持中英文混合输入 | 双语多模态基准模型 |
Llava-V1.6-Mistral-7B | 开源多模态大模型 | 基于多模态指令数据微调 | 验证指令微调对多模态任务的影响 |
mPLUG-Owl2.1(1.9B+7B) | 开源多模态大模型 | 两阶段训练实现图文对齐 | 研究图文对齐策略对检索增强的作用 |
InstructBLIP-Vicuna-7B | 开源多模态大模型 | 基于Vicuna-7B的多模态指令微调模型 | 验证指令微调对多模态任务的影响(原始性能较低但mRAG提升显著) |
下列链接为任务中表现比较好的开源模型,值得关注:
mPLUG-Owl2.1 · 模型库
Salesforce/instructblip-vicuna-7b · Hugging Face
deepseek-ai/deepseek-vl-7b-chat · Hugging Face
(三)基线模型拓展(生成式搜索引擎、人类表现)
基线类型 | 具体模型/参与者 | 特点 | 实验目的 |
---|---|---|---|
生成式搜索引擎 | Bing Chat | 多模态交互能力 | 对比商业产品与学术模型的动态问题处理能力 |
PerplexityAI专业版 | 实时信息检索与多模态推理 | 验证工业级RAG系统的实际效果 | |
Gemini-Advance | 跨模态理解与生成 | 评估闭源多模态大模型的性能 | |
人类表现 | 本科及以上学历参与者 | 无约束问答(可使用检索工具),未参与Dyn-VQA的标注过程 | 提供模型性能的客观上限参考 |
(四)评估指标 F1-Recall
指标计算步骤
- 文本分词
- 使用分词工具将模型生成文本和黄金标准答案分割为令牌列表:
- 中文:Jieba分词工具(https://github.com/fxsjy/jieba)
- 英文:NLTK工具包(https://www.nltk.org/)
- 令牌匹配
- 计算模型生成令牌列表与黄金令牌列表的交集,即公共令牌。
- 指标计算
- F1-Recall公式: F 1 = 2 × 准确率 × 召回率 准确率 + 召回率 F1 = 2 \times \frac{\text{准确率} \times \text{召回率}}{\text{准确率} + \text{召回率}} F1=2×准确率+召回率准确率×召回率
- 准确率:公共令牌数 / 模型生成令牌总数
- 召回率:公共令牌数 / 黄金令牌总数
不同评估指标的一致性
补充指标引入:
- “基于 GPT 的准确率(GPT-based Accuracy)”
- “基于人类的准确率(Human-based Accuracy)”
具体方法为分别向 GPT-4V 和人类评估者提供含标准答案的问题,要求其判断模型回答的正确性并计算正确率。表 13 展示了不同模型在这三个指标上的得分及其相关性(通过皮尔逊相关系数量化)。
结论:
皮尔逊系数范围为 - 1 到 1,1 表示完全正相关,-1 表示完全负相关。所有模型在这三个指标上的趋势完全一致,且系数均超过 0,证实正相关关系。这表明 F1-Recall 能充分反映模型性能。尽管基于 GPT 和人类的准确率一致性更强(可能更可靠),但 F1-Recall 作为自动化指标仍具显著优势,其计算成本更低且可扩展性更好。
5.2 主要结果

(一)OmniSearch优势分析
- 性能超越性
- OmniSearch(GPT-4V)显著优于其他模型,包括配备启发式mRAG的最先进MLLM和商业生成式搜索引擎。
- 即使是基于Qwen-VL-Chat的OmniSearch,也超越了配备两步启发式mRAG的更大规模GPT-4V
- 动态规划机制
- 通过子问题分解减轻单步检索压力(如票房对比问题分解为独立检索)。
- 实时反思检索内容与子问题,减少错误传播(如验证电影上映日期)。
(二)OmniSearch的不足
- 总体性能上,OmniSearch与人类表现及通过黄金查询增强的GPT-4V接近,凸显其优越性。但在三类最具挑战性问题(快速变化、>2跳、需要外部视觉知识)上,OmniSearch与人类仍存在显著差距
- 表明基于代理的mRAG在真实问题中仍有改进空间。如何生成更接近人类的搜索逻辑是未来研究方向。
(三)Dyn-VQA 的挑战性
- 需多步检索或额外视觉知识的问题中,所有模型均表现不佳,且模型在不同答案更新频率问题上的性能波动显著。
- 快速变化知识问题因知识时效性无法被MLLM内化而成为最棘手挑战。
(四)Two-hop 启发式 mRAG的特点
- 对于两步启发式mRAG,利用
图像字幕模型
转换视觉概念能为原始MLLM带来更大增益,为后续检索提供更详细图像描述。 - 但此优势在无需额外视觉知识的问题中反转,因这类问题多为2跳(74%)且仅需图像内视觉概念。图像字幕模型补充信息对模型无实质帮助。
(五)Single-hop 启发式 mRAG的特点
- 虽然单步启发式mRAG可能无法检索到最精确的内容,但它仍然能够提升原始模型的能力。
- 不同检索方案的比较:
- 利用输入图像检索图像信息,可以让MLLM获取更多关于图像中物体的信息;
- 通过输入问题进行网页检索,由于问题中存在某些关键词,也能检索到一些相关信息。
- 总体来看,网页检索带来的平均提升更大,达到了6.78,这或许是因为MLLM本身具有识别图像中某些物体的能力。这也表明,与以往的VQA数据集不同,Dyn - VQA的挑战并非仅仅在于对图像中物体的识别。
(六)生成式搜索引擎在Dyn-VQA上表现不佳
-
商业生成式搜索引擎在Dyn-VQA上普遍表现不佳,最佳引擎Gemini仅与配备两步mRAG的GPT-4V相当。
-
案例分析表明,这些引擎缺乏关键接地能力:无法将问题中的“it”与图像对象关联,也无法有效整合多模态信息。这说明Dyn-VQA的问题反映了工业场景的真实需求。
(七)mRAG对LLM、MLLM的辅助效果
-
纯文本LLM:对比Qwen-7B-Chat和Qwen-VL-Chat发现,配备mRAG后模型性能差距缩小。此现象表明mRAG可辅助纯文本LLM处理多模态问题。
-
MLLM:经过启发式mRAG增强后的MLLM之间,性能差异有所减小。例如,在采用基于图像字幕的两步mRAG方法后,开源MLLM之间的性能差异从4.92降至2.42。对于基础能力欠佳的MLLM而言,mRAG是提升模型性能的理想方法。它不仅对资源的依赖程度较低,而且部署起来也更为便捷。
(八)值得关注的开源MLLM
- 在所有开源MLLM当中,Deepseek - VL - 7B - Chat作为骨干模型表现最为出色,取得了最高的整体性能。
- 而InstructBLIP - Vicuna - 7B在应用启发式mRAG方法后,性能提升最为显著,四种启发式mRAG方法的平均绝对增益达到了16.60,相较于InstructBLIP - Vicuna - 7B的基准性能,提升幅度高达223.1%。这种大幅提升很可能是因为InstructBLIP - Vicuna - 7B原始模型的初始性能相对较低。
下列链接为任务中表现比较好的开源模型,值得关注:
mPLUG-Owl2.1 · 模型库
Salesforce/instructblip-vicuna-7b · Hugging Face
deepseek-ai/deepseek-vl-7b-chat · Hugging Face
5.3 OmniSearch 分析实验
(一)不同模型作为子问题求解器对整体性能的影响
不同子问题求解器对整体性能的影响
(1) 对于基于Qwen-VL-Chat的OmniSearch,采用更大模型GPT-4V作为子问题求解器显著提升性能,表明子问题求解器的
scaling laws
持续有效。(2) 对涉及多模态上下文的子问题使用GPT-4V,对纯文本上下文的子问题使用GPT-4(其文本能力被认为优于GPT-4V)。该策略进一步提升了性能。未来值得探索更精细的调用策略,例如让子问题求解器输出图像中特定物体的边界框以指导更精准的检索。
(3) 为评估具备检索路径规划学习的OmniSearch是否损害了其问题解决能力,我们将基于Qwen-VL-Chat的OmniSearch的子问题求解器替换为原始Qwen-VL-Chat。对比表5中第1行(也就是原版的OmniSearch框架)与第4行发现,使用OmniSearch本身作为子问题求解器反而提高了问题解决能力。这表明检索路径规划的学习同时涉及对检索知识的理解和推理能力,可能增强模型的问题解决能力并产生跨任务增益。
(二)不同的模型充当子问题解决器时的计算消耗
不同子问题求解器的计算消耗
性能与费用关系:
- OmniSearch性能与实际费用呈正相关,但非线性。
- 尽管成本更高,其性能提升显著优于启发式mRAG。
求解器替换效果:
将子问题求解器从GPT-4V替换为Qwen-VL-Chat(表6第3、4行):
绝对性能下降不足4个百分点。
费用几乎减半,展现OmniSearch的出色扩展性。
瓶颈分析:
- 子问题推理非瓶颈:
- 对比替换规划模型(第6行→第5行)和子问题求解器(第6行→第7行)的性能提升: 前者增益更显著,表明复杂问题的检索策略是更紧迫的挑战。 (也就是用更好的模型来生成更精准的检索策略)
结论建议:
- 当计算资源受限时,应优先确保检索规划模型使用更大规模的骨干模型。
表 14:不同答案更新频率问题的计算成本分析
核心发现:
(1) 复杂问题消耗更多Token:
- OmniSearch 在答案快速或缓慢更新的复杂问题上消耗更多Token,因本质上需要更多检索步骤(如验证动态知识)。
(2) 模型规模与资源消耗差异:
- 较小模型 OmniSearch (Q) 在不同难度问题上的资源消耗差异更显著。
- 原因:GPT-4V 解题更严谨(如主动规划验证检索),导致即使简单问题也可能超过三步检索(参考 6.1 节)。
(3) 子问题求解器替换效果:
- 将 OmniSearch (G) 的子问题求解器替换为 Qwen-VL-Chat 后,总Token消耗仍与原模型相当(对比表 14 第 1、2 行)。
- 表明 OmniSearch (G) 有效将计算负担转移至较小模型,同时保持性能稳定。
- 替换后,较小模型承担更多子问题推理,而较大模型(如 GPT-4V)可能集中在更复杂的规划或验证步骤,整体流程的 Token 分配被优化。尽管单次调用的 Token 消耗降低(Qwen-VL-Chat 参数量更小),但可能触发更多轮次的检索或子问题分解(例如需要更多步骤验证答案),导致总 Token 消耗与原模型相当。
表 15:平均延迟分析与优化潜力
关键结论:
(1) 模块替换降低延迟:
- 将 OmniSearch 部分模块替换为较小模型可有效降低延迟。
(2) 时间比例与优化方向:
- 搜索时间与模型推理时间比例约为 2:3,表明两方面均有显著优化潜力。
(3) 延迟影响因素:
- 延迟是复杂系统工程问题,涉及:
- 模型复杂度
- 搜索 API 网络配置
- 检索内容缓存策略
- 推理模型加速
- 硬件 FLOPS 等
(三)不同的检索内容的影响
- 整体有效性:检索内容的每个部分均对整体性能有益,单独使用任一单一部分均导致不同程度的性能下降(与使用全部内容相比)。
- 图像标题贡献最大:图像标题对最终性能贡献最大,因 Dyn-VQA 中几乎所有问题均需图像目标识别,相似图像的标题能为模型提供关键补充信息。
- 搜索引擎知识增益有限:搜索引擎提供的相关知识增益相对有限,因其通常为与具体问题缺乏直接关联的静态背景知识。
- 原因解释:
- 图像标题的重要性: 图像标题包含目标识别所需的关键信息(如物体名称、属性),直接支持问题解答。
- 搜索引擎知识的局限性:搜索引擎返回的知识多为通用背景信息,与特定问题的动态需求(如时效性、多模态融合)匹配度较低。
(四)更多的检索内容是否有用
mRAG 的内在优势:包含检索内容的模型始终优于无检索模型,验证了 mRAG 在增强知识时效性和多模态融合方面的核心价值。
OmniSearch vs GPT-4V:
- GPT-4V:检索量增加未持续提升性能,可能因缺乏有效过滤噪声的机制。
- OmniSearch:展现更优的海量检索内容利用能力,能有效过滤干扰并充分利用复杂信息,表明其动态规划和检索路径优化机制的鲁棒性。
英文问题:两模型性能均随检索内容量增加而提升。
- 原因:
- 模型骨干均为 GPT-4V,其英文能力强于中文。
- 谷歌搜索更倾向英文网站,提供更相关的检索结果
- 未来可根据语言特性引入更多搜索工具(如 Bing、百度),甚至通过多工具验证答案。
(五)不同模型在不同的VQA数据集下的表现(包括OmniSearch与Dyn-VQA)
核心发现:
GPT-4V 的传统数据集优势与动态推理不足
性能表现对比
- 传统数据集:平均 74+(接近人类水平)
- DynVQA 数据集:F1=30.25(显著低于人类)
原因分析
- 知识内化特性:传统 VQA 依赖常识知识(如 VQAv2 的物体属性 / 动作意图问题)
- 动态推理短板:DynVQA 需实时理解图像动态内容
启发式 mRAG 方法的局限性
性能表现特征
- 对GPT-4V在所有传统数据集上的效果均产生负面影响,其中在InfoSeek数据集上的性能下降超过10个百分点
- 问题类型敏感性:建筑 / 动植物图像问题存在困难
原因分析
- 浅层知识检索:图像标题模型无法准确描述→搜索引擎返回主题相关但实质无关内容,反而误导了原始模型
- 数据集特性放大缺陷:
・InfoSeek:同质化的维基百科问题(高占比强化缺陷),进一步放大了mRAG方法的缺陷
・VQAv2/A-OKVQA:常识知识与网络知识差异→负面影响较弱(但依然存在)OmniSearch 方法的全面优化
- 性能表现:全数据集稳定提升(包括低知识依赖的 VQAv2/A-OKVQA)
- 机制优势
- 动态搜索决策:避免对无需外部知识问题的干扰
- 适应性提升:通过选择性检索增强多类型问题处理能力
(六)OmniSearch 具体案例分析(涉及成功、失败情况)
- 在左侧第一个案例中,模型在初始检索失败后多次动态调整检索策略,体现了OmniSearch适应复杂检索环境并基于环境反馈主动调整策略的能力。
- 中间案例中,模型通过增长率和前一年GDP间接估算韩国当前GDP后,本应继续检索日本当前GDP,但OmniSearch却突然中断了思考和检索过程。这表明该方法在需要长推理链的问题中存在困难,容易丢失原始问题和前置信息。
- 右侧案例中,由于图像主体是PowerPoint切片,而问题涉及人物仅占据右下角极小区域,OmniSearch从初始规划阶段就选择了错误的检索策略,聚焦于错误的视觉证据并陷入"思维陷阱"。理想解决方案应首先通过图像搜索确定这是课程视频截图,进而观看视频获取主讲人姓名,再通过网页搜索获取其学术机构信息;或通过图像目标识别和裁剪技术定位右下角精确区域,基于检索图像的标题信息获取人物信息。但当前OmniSearch尚不支持此类复杂精细的检索流程,导致两种方案均无法完美实现。
- 这些失败案例带来重要启示:
- 长上下文知识问题解决:在分析的100个错误案例中,73%存在部分包含正确答案但因上下文过长导致检索中断的情况。需同步提升多模态大模型上下文窗口最大长度,并在子问题求解器中引入上下文去噪、压缩和摘要技术。
- 精确检索技术发展:开发更精准的检索方法并集成多元化检索工具是亟待开展的研究方向。
六、DYN-VQA数据集分析实验
6.1 不同领域性能对比

实验目的:评估配备不同 mRAG 方法的 Qwen-VL-Chat 与 GPT-4V 在各领域的性能表现。
核心发现:
- mRAG 方法的普遍有效性:所有 mRAG 方法均提升了原始模型的效能,尤其显著扩展了较小模型 Qwen-VL-Chat 的领域覆盖范围。
- 交通领域的异常表现:基于 Qwen-VL-Chat 的 OmniSearch 在交通领域表现优于基于 GPT-4V 的版本。
- 原因:这一现象主要归因于交通领域的长尾特性 —— 仅包含 10 个 VQA 实例,且大部分为 2 跳问题或不涉及动态知识的问题。在此类场景中,基于 GPT-4V 的 OmniSearch 倾向于过度检索(例如已获取必要信息后仍谨慎收集额外验证信息),导致正确答案淹没在海量检索内容中。
- 结论:凸显了持续增强 OmniSearch 鲁棒性的必要性。
通用分布规律
- 检索速度维度
- 快速检索(第 1 柱) < 慢速检索(第 2 柱) < 不检索(第 3 柱)
- 推理跳数维度
- 少于两跳(第 4 柱) > 多于两跳(第 5 柱)
- 知识依赖维度
- 无需外部视觉知识(第 6 柱) > 需要外部视觉知识(第 7 柱)
结论:OmniSearch在需要更复杂检索流程的问题上普遍表现较弱。在交通等数据稀疏领域存在例外情况,该方法在这些领域同样呈现出相对较差的性能表现
6.2 预测重叠度

实验目的:探究不同模型正确回答问题的重叠情况,揭示模型行为差异及挑战分布。
核心发现:
- 整体覆盖不足:Dyn-VQA 中无问题被所有模型正确回答,31% 的问题未被任何模型正确预测。
- 两两重叠度:
- 图 5 展示了模型正确回答问题的两两重叠度,每行表示对应模型正确回答的问题中被其他模型正确回答的比例。
- Qwen-VL-Max 与 GPT4V:性能最优的两个模型重叠度较高,但仍仅约 60%,表明其优势领域存在差异。
- 长尾模型的独特性:即使性能最弱的 InstructBLIP-Vicuna-7B(F1 召回率 12.33),其成功回答的问题中仍有 26.87% 未被最佳模型 GPT4V 正确回答(热力块 (6,8))。
- 原因分析:模型行为存在显著差异,某些模型的优势并非源于答对 “难题” 的同时稳定答对 “简单题”,而是对特定类型问题的独特处理能力。
- 结论:DynVQA 呈现的多样化挑战对模型影响各异,凸显基于集成与自洽性的方法是未来研究的重要方向。