新王加冕,GPT-4V 屠榜视觉问答

当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然而,真正的挑战在于知识密集型 VQA 任务,这要求不仅要识别视觉元素,还需要结合知识库来深入理解视觉信息。

本文对 MLLM,尤其是近期提出的 GPT-4V,从理解、推理和解释等方面进行了综合评估。结果表明,当前开源 MLLM 的视觉理解能力在很大程度上落后于 GPT-4V,尤其是上下文学习能力需要进一步提升。并且,在广泛的常识类别中,GPT-4V 的问答水平也是明显领先的。

图片

▲图1 知识密集型视觉问答(VQA)任务的评估框架

如图 1 所示,该框架从三个维度进行了深入评估:

  1. 常识知识:评估模型如何理解视觉线索并与常识知识联系;

  2. 精细化的世界知识:测试模型从图像中推理出特定专业领域知识的能力;

  3. 具有决策基础的全面知识:检查模型为其推理提供逻辑解释的能力,从可解释性的角度进行更深入分析。

有趣的是,作者发现:

  • 在使用复合图像作为小样本时,GPT-4V 表现出增强的推理和解释能力;

  • 在处理世界知识时,GPT-4V 产生严重幻觉,突显了该研究方向未来发展的需求。

论文题目:
A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering

论文链接:
https://arxiv.org/abs/2311.07536


当人类与多模态人工智能系统交互时,通常期望获得他们不知道的有价值信息,并提出寻求知识的问题,这涉及到知识密集型挑战。这带来了一个重要的问题:基于 MLLM 的 VQA 系统在面对知识密集型寻求信息的问题时会如何表现

因此,有必要明确 MLLM 在知识密集型 VQA 场景中的性能,因为这不仅将评估它们基于知识库的视觉推理能力,还将为增强它们在视觉问答方面的能力和提高可信度进行铺垫。

如图 2 所示,作者在这项研究里集中评估了先进的多模态大型模型,特别关注了 GPT-4V(ision) 在知识密集型 VQA 任务背景下的能力。

图片

▲图2 GPT-4V 在三个维度上的性能

本文的研究结果总结如下:

  • MLLM 在知识领域的推理能力各异。分析突显了 MLLM 在涵盖常识和精细化世界知识的各种知识类别上的理解和推理能力的显著差异。

  • GPT-4V 在具有精细化世界知识的 VQA 方面具有挑战性

  • GPT-4V 能够处理复合图像。将包含上下文引用以进行上下文学习的复合图像提供给 GPT-4V,使 GPT-4V 能够实现更高的答案准确性。尤其是在复合图像中引入上下文引用示例,提高了生成的基础质量,改善了 GPT-4V 的决策解释。

实验设置

数据集

作者选择了三个基于知识的 VQA 数据集:OK-VQA(常识知识),INFOSEEK(精细化世界知识)和 A-OKVQA(决策基础)。这些数据集涵盖了不同形式的知识,并相应地采用不同的评估维度。表 1 展示了这些数据集的统计信息,包括样本总数、类别分布等。

图片

▲表1 基于知识的 VQA 数据集统计信息

图 3 有详细的知识范围统计数据,覆盖了植物、动物、食物、地点等十多个知识类别。

图片

▲图3 根据常识和世界知识类型的知识类别问题的细分

评估方法

鉴于大多数答案是含有少量单词的短文本,而基础是句子级别的,采用以下评估方法:

  1. 精确匹配: 最直接的准确性评估方法,通过将生成的答案与一组预定义的正确答案进行比较,检查生成的答案是否与参考集中的任何答案完全匹配。

  2. 自动基础评估: 不仅考虑答案的正确性,还考虑模型回复解释答案背后的推理或逻辑的程度。使用生成性指标来评估语言质量和相关性。

  3. 人工评估: 人类判断在理解上下文、细微差别和自然语言微妙之处方面很重要。人类评估员将从一致性、充分性、事实正确性方面评估生成的基础句子。

常识知识问答评估

在处理需要常识推理的任务时,计算机通常缺乏人类的先天理解,例如理解在寒冷天气中穿外套的必要性。因此,AI 系统在这些任务上往往表现不佳。AI 研究的关键目标之一是设计方法,使计算机能够具备常识知识,以实现与人类的自然交互。

在常识知识问答任务中,回复通常是一个词或短语。为了激发模型的常识推理能力,作者采用了不同的提示策略,如图 4 所示。使用视觉输入方法,通过输入包含四个上下文参考示例的复合图像,提示模型利用其上下文学习能力生成回复。

图片

▲图4 MLLM 的提示技术

表 2 展示了在具有常识知识 VQA 上的基准结果。其中,Llava-v1.5-13b 是最熟练的开源 MLLM,尤其在常识视觉问题回答方面表现卓越,但在许多领域仍远远低于 GPT-4V。

图片

▲表2 通用知识 VQA 上的基准结果

此外,还有以下关键发现:

  • 对 MLLM 进行常识 VQA 数据微调显著提高了性能。

  • 使用 4-shot 上下文学习方法对一些 MLLM 的常识推理性能产生影响,尤其是对开源模型的影响较为敏感,而 GPT-4V 则相对不太敏感。

  • MLLM 在应用内部知识时存在长尾效应。

总体而言,尽管开源 MLLM 表现不错,但在广泛的常识类别中,GPT-4V 仍然明显领先。

如图 5 所示,GPT-4V 倾向于生成更详细和准确的答案,但存在一些视觉错觉问题,例如误识别图像中的关键元素和难以区分相似物种。此外,特别是在提供不确定性回复时,GPT-4V 有时能生成详细的推理过程

图片

▲图5 GPT-4V 和 Llava-v1.5-13b 在常识知识上生成的案例的对比

细粒度世界知识评估

相对于常识知识,世界知识更为具体和详细,使得 AI 能够回答关于事实和具体问题的提问,对于 MLLM 来说,处理信息检索问题至关重要。这种 VQA 需要 MLLM 识别视觉内容并将其与知识库联系起来,因此更关注 GPT-4V 在处理各种类别中的细粒度知识时的能力。

为了激发模型细粒度知识处理能力,作者采用了与图 4 中示例相同的提示方法,并选择了如图 6 所示的上下文参考示例。

图片

▲图6 MLLM 在细粒度世界知识评估中的上下文参考示例

实验结果见表 3,GPT-4V 的平均准确率不到 30%。相比之下,开源 MLLM 的准确率更低。因此在处理细粒度世界知识方面,GPT-4V 明显优于开源 MLLM。所有评估的 MLLM,无论其复杂性如何,在准确回答需要详细世界知识的视觉问题方面效果都有欠缺。

图片

▲表3 在细粒度世界知识上的 VQA 基准结果

在不同知识类别之间存在显著的性能差距,导致了严重的长尾现象。目前的 MLLM(包括 GPT-4V 在内)回答复杂信息检索问题的能力需要进一步提高。

案例研究

图 7-11 展示了 GPT-4V 在 11 个细粒度世界知识问答中遇到的四个主要问题:

  1. 上下文不足而拒绝回答:由于上下文不足,GPT-4V 经常因为图像未提供与问题相关的足够信息而选择不回答寻求信息的问题(参见图 8-10)。GPT-4V 过于谨慎,通常在图像缺乏强烈相关视觉线索时选择保持沉默。

  2. 识别相似对象的挑战:GPT-4V 在具有广泛子类别范围的类别中难以区分相似物品,导致在这些领域内回答知识密集型问题的准确性明显降低。这一限制可能与视觉幻觉和LLM的幻觉有关。

  3. 视觉和知识维度整合不足:数据集主要专注于单跳视觉知识问题和答案,但观察到的事实不准确性表明视觉识别与相关知识的整合较弱。

  4. 过度依赖视觉线索,忽视文本提问:GPT-4V 有时在回答中过度依赖视觉元素,而忽视问题的文本内容。

图 7 的上半部分评估了建筑的建筑风格和目的,澄清了其实际的教区和举办的重要事件。下半部分评估了动物的栖息地、保护状况和入侵情况。

图片

▲图7 GPT-4V 在识别相似对象方面存在困难(视觉幻觉)

图片

▲图8 过度依赖视觉线索来回答知识密集型的视觉问题

上图展示了一个被错误识别的植物物种及其不存在的栖息地,以及桥梁先前的渡河和其工程归属的历史细节。当图像无法提供足够信息时,GPT-4V 拒绝回答问题,过度依赖视觉线索来回答知识密集型的视觉问题。

图片

▲图9 细粒度问题回答

图 10 呈现了当询问 GPT-4 识别并提供有关图像中各种对象和位置的详细信息时,对其回复进行比较分析。该图展示了模型在没有额外上下文的情况下,存在解释视觉信息的能力和局限性。

图片

▲图10 在没有额外上下文的情况下解释视觉信息的能力和局限性

图 11 包括对几何结构、望远镜的发明者、飞机的环境影响以及古罗马市场的历史背景,以及传统划船比赛的起源进行评估。这些提问展示了模型试图从图像和相关问题中推断信息的尝试,展示了 GPT-4V 理解和历史归因的挑战和复杂性。

图片

▲图11 GPT-4V 理解和历史归因的挑战和复杂性

尽管所有 MLLM 在需要实体特定知识的问题中都存在困难,但在这些场景中,GPT-4V 相对于开源 MLLM 展现了显著优势。然而,GPT-4V 往往过于谨慎,经常选择不回答与缺乏强相关视觉线索的图像提问,过度依赖视觉理解内容是它们此处表现不佳的关键限制。为了提高 MLLM 在精细化视觉对象知识任务中的能力,需要进一步研究提高详细视觉数据与上下文知识的整合和相关性。

全面知识与决策论据

通常,MLLM 充分利用广泛的知识库,将预训练的 LLM 与视觉编码器的能力相结合。在这里,作者提供了决策论据以评估 MLLM 在生成相关事实和支持推理的逻辑推理序列方面的熟练程度。

为了实现评估目标,问题的设计旨在引导模型进行概念上的深入思考,往往需要对呈现的图像之外的知识进行推断。

如图 12 所示,当前的多模态提示方法主要注重为决策过程生成论据,这标志着一个重要的变革。

图片

▲图12 为 A-OKVQA 生成理由的提示方法

从表 4 可以看出,GPT-4V(4-shot)在性能方面优于其他模型。与 GPT-4V 不同,其他 MLLM 缺乏在上下文示例中生成论据的能力,除非它们提供了理由作为参考。

图片

▲表4 在 A-OKVQA 上的多个知识类型和决策论据生成的基准结果

相比之下,GPT-4V 通常对人类的提问生成更详细的理由,这可能解释了它在这些指标上的不同表现。

此外,根据答案准确性、一致性、充分性和事实正确性这四个维度进行了人工评估,统计结果如表 5 所示。显然,GPT-4V 在答案准确性和决策论据质量方面表现出色,明显优于其他开源 MLLM。尽管在自动评估指标中论据评分略低,但从人工评估的角度来看,GPT-4V 生成的理由质量仍然是最好的

图片

▲表5 对生成答案和论据的子集进行人类评估

案例研究

在对这些样本提供的理由及准确性进行评估时,根据图 13,明显可以看出 GPT-4V 在性能上优于 Llava-v1.5。具体而言,GPT-4V 的输出不仅更为详细,而且提供了更加丰富的信息。相比之下,Llava-v1.5 生成的理由通常较为模糊,有时在解释视觉元素时可能产生幻觉。

对于不正确的回答进行进一步分析揭示了一个经常出现的问题:GPT-4V 和 Llava-v1.5 偶尔由于对图像中的视觉内容的误解而提供不准确的答案。这一趋势在 Llava-v1.5 的错误样本中尤为明显,表明其在处理视觉信息和理解指令方面有改进的空间。

图片

▲图13 采用 4-shot 提示方法,由 GPT-4V 和 Llava-v1.5-13b 生成的样例

开源的 MLLM 在答案准确性方面表现得和 GPT-4V 相媲美,这归因于它们在多模态指令调优阶段利用了相关数据集。然而,这些模型在没有先前上下文引用情况下生成理由的能力较差,表明它们在理解各种指令的能力方面存在一定局限性。

此外,研究结果还揭示了当前开源 MLLM 的视觉理解能力在很大程度上落后于 GPT-4V,它们的上下文学习能力需要进一步提升。然而,GPT-4V 的 few-shot 设置方式提高了答案准确性和生成理由的质量。

总结

本研究主要关注对多模态大型模型性能的评估,作者着重探讨了 GPT-4V 在各种知识密集型 VQA 任务中的表现。通过对性能评估的详细分析,还揭示了 MLLM 面对的挑战和局限:

  • 长尾知识推理是多模态大型模型的挑战。MLLM 在各种知识领域中的推理能力存在显著差异,尤其在涉及挑战性的人类实体知识的情境中。这一差异主要源于训练阶段的数据分布不平衡,因此解决这一问题对提高 MLLM 整体推理能力至关重要。

  • GPT-4V 和其他 MLLM 在细粒度世界知识问答中存在性能限制。解决这些限制对于提高 MLLM 在需要深入理解视觉和文本信息的复杂问答任务中的性能至关重要。

  • 整合全面知识以提升视觉理解。MLLM 在处理需要理解图像中对象的背景知识的问题时经常表现不佳。扩展视觉语言训练,包括更广泛的有关视觉对象的知识,有助于提高 MLLM 对视觉内容的理解和准确回答复杂问题的能力。

  • GPT-4V 有效利用基于复合图像的上下文学习。这种技术提高了 GPT-4V 生成准确答案和推理的效率,尤其在处理包含丰富信息的复合图像时。然而,该方法对模型固有的图像理解能力产生影响,开源 MLLM 在这方面的表现相对较差。

本文强调了改善 MLLM 在处理不同领域和知识密集型任务中的能力的重要性。对长尾知识、视觉理解和语言推理的整合,以及对模型在特定场景下的优势和不足进行深入了解,这都是未来研究的关键方向。

在未来的工作中应当加强对 MLLM 的进一步改进,特别是在细粒度世界知识问答方面。通过整合更全面的知识、改善视觉理解和语言推理的整合,我们有望提高这些模型在处理复杂问题时的性能。期望未来在 MLLM 上有更多的研究和技术进展,这将为推动人工智能领域的发展提供新的机遇和创新基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/168310.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电源控制系统架构(PCSA)之系统分区电源域

目录 4.2 电源域 4.2.1 电源模式 4.2.2 电源域的选择 4.2.3 系统逻辑 4.2.4 Always-On域 4.2.5 处理器Clusters 4.2.6 CoreSight逻辑 4.2.7 图像处理器 4.2.8 显示处理器 4.2.9 其他功能 4.2.10 电源域层次结构要求 4.2.11 SOC域示例 4.2 电源域 电源域在这里被定…

Ubuntu20.04上编译安装TVM

本文主要讲述如何在ubuntu20.04平台上编译TVM代码并在python中import tvm成功。 源代码下载: git clone --recursive https://github.com/apache/tvm tvm 平台环境升级: 1) sudo apt-get update 2) sudo apt-get install -y pyth…

Vue3+element-plus,打包报错:Cannot read properties of null (reading ‘insertBefore‘)

一、现象:vue3 element-plus项目,本地启动时,页面所有操作都正常;部署到生产环境后,el-dialog、el-drawer弹框报错。 这个弹框报错问题,困扰好几天,查阅资料,可能是如下几个问题。 …

数据结构-树-二叉树-堆的实现

1.树概念及结构 树是一种 非线性 的数据结构,它是由 n ( n>0 )个有限结点组成一个具有层次关系的集合。 把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的 。 有一个特殊的结点&#xff…

从裸机启动开始运行一个C++程序(十四)

前序文章请看: 从裸机启动开始运行一个C程序(十三) 从裸机启动开始运行一个C程序(十二) 从裸机启动开始运行一个C程序(十一) 从裸机启动开始运行一个C程序(十) 从裸机启动…

牛客 算法题 记负均正II golang实现

题目 HJ105 记负均正II golang 实现 package mainimport ("bufio""fmt""io""os""strconv""strings" )func main() {scanner : bufio.NewScanner(os.Stdin)nums:make([]int,0)sum:0minus:0for scanner.Scan() {l…

quickapp_快应用_DOM是否显示只能通过if指令!

目录 官网概念语法拓展使用三元表达式控制示例 官网 if指令 概念 if条件指令用于控制是否增加或者删除组件。 语法 <组件名 ifbol><组件名>上述语法中只要bol值为ture则显示该组件&#xff0c;若是bol值为false则不显示该组件(并将其从DOM结构中移除)。 拓展…

持续集成交付CICD:GitLabCI 通过trigger触发流水线

目录 一、理论 1.GitLabCI 二、实验 1.搭建共享库项目 2.GitLabCI 通过trigger触发流水线 三、问题 1.项目app02未触发项目app01 2.GitLab 报502网关错误 一、理论 1.GitLabCI (1) 概念 GitLab CI&#xff08;Continuous Integration&#xff09;是一种持续集成工具…

华为云人工智能入门级开发者认证学习笔记

人工智能入门级开发者认证 人工智能定义 定义 人工智能 (Artificial Intelligence) 是研究、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 强人工智能 vs 弱人工智能 强人工智能&#xff1a;强人工智能观点认为有可能制造出真正能推理&#xff08…

Redis-缓存高可用集群

Redis集群方案比较 哨兵模式 性能和高可用性等各方面表现一般&#xff0c;特别是在主从切换的瞬间存在访问瞬断的情况。另外哨兵模式只有一个主节点对外提供服务&#xff0c;没法支持很高的并发&#xff0c;且单个主节点内存也不宜设置得过大&#xff0c;否则会导致持久化文件过…

机器学习【02】在 Pycharm 里使用 Jupyter Notebook

只有 Pycharm 的 Professional 版才支持 Jupyter Notebook 本教程结束只能在pycharm中使用&#xff0c;下载的库在pycharm选中的虚拟环境中 ssh -L localhost:9999:localhost:8888 usernameip这句话每次都要用 准备 1.服务器安装jupyter sudo snap install jupyter2.在 Jup…

C#学习相关系列之base和this的常用方法

一、base的用法 Base的用法使用场景主要可以概括为两种&#xff1a; 1 、访问基类方法 2、 调用基类构造函数 使用要求&#xff1a;仅允许用于访问基类的构造函数、实例方法或实例属性访问器。从静态方法中使用 base 关键字是错误的。所访问的基类是类声明中指定的基类。 例如&…

怎样通过代理ip提高上网速度

在当今互联网高度发达的时代&#xff0c;我们经常需要使用代理IP来隐藏自己的真实IP地址或提高网络连接速度。然而&#xff0c;有些用户可能会遇到代理IP无法提高网络速度的情况。那么&#xff0c;如何通过代理IP提高上网速度呢&#xff1f;以下是几个技巧&#xff1a; 1.选择…

android 保活的一种有效的方法

android 保活的一种有效的方法 为什么要保活 说起程序的保活,其实很多人都觉得,要在手机上进行保活,确实是想做一些小动作,其实有些正常的场景也是需要我们进行保活的,这样可以增强我们的用户体验。保活就是使得程序常驻内存,这种程序不容易被杀,或者在被杀以后还能完…

【CVE-2021-1675】Spoolsv打印机服务任意DLL加载漏洞分析

漏洞详情 简介 打印机服务提供了添加打印机的接口&#xff0c;该接口缺乏安全性校验&#xff0c;导致攻击者可以伪造打印机信息&#xff0c;在添加新的打印机时实现加载恶意DLL。这造成的后果就是以system权限执行任意代码。 影响版本 windows_10 20h2 windows_10 21h1 win…

第97步 深度学习图像目标检测:RetinaNet建模

基于WIN10的64位系统演示 一、写在前面 本期开始&#xff0c;我们继续学习深度学习图像目标检测系列&#xff0c;RetinaNet模型。 二、RetinaNet简介 RetinaNet 是由 Facebook AI Research (FAIR) 的研究人员在 2017 年提出的一种目标检测模型。它是一种单阶段&#xff08;o…

RabbitMQ 安装(在docker容器中安装)

为什么要用&#xff1f; RabbitMQ是一个开源的消息代理和队列服务器&#xff0c;主要用于在不同的应用程序之间传递消息。它实现了高级消息队列协议&#xff08;AMQP&#xff09;&#xff0c;并提供了一种异步协作机制&#xff0c;以帮助提高系统的性能和扩展性。 RabbitMQ的作…

​LeetCode解法汇总2304. 网格中的最小路径代价

目录链接&#xff1a; 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目&#xff1a; https://github.com/September26/java-algorithms 原题链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 描述&#xff1a; 给你一个下…

Flink实战(11)-Exactly-Once语义之两阶段提交

0 大纲 [Apache Flink]2017年12月发布的1.4.0版本开始&#xff0c;为流计算引入里程碑特性&#xff1a;TwoPhaseCommitSinkFunction。它提取了两阶段提交协议的通用逻辑&#xff0c;使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持&#xff1a; 数据源&#…

【Redis】前言--介绍redis的全局系统观

一.前言 学习是要形成自己的网状知识以及知识架构图&#xff0c;要不最终都还是碎片化的知识&#xff0c;不能达到提升的目的&#xff0c;只有掌握了全貌的知识才是全解&#xff0c;要不只是一知半解。这章会介绍redis的系统架构图&#xff0c;帮助认识redis的设计是什么样的&a…