推动多模态智能模型发展:大型视觉语言模型综合多模态评测基准

 随着人工智能技术的飞速发展,大型视觉语言模型(LVLMs)在多模态应用领域取得了显著进展。然而,现有的多模态评估基准测试在跟踪LVLMs发展方面存在不足。为了填补这一空白,本文介绍了MMT-Bench,这是一个全面的多模态基准测试,旨在评估LVLMs在需要专家知识和深思熟虑的视觉识别、定位、推理和规划的大量多模态任务上的表现。

MMT-Bench的构建

MMT-Bench是一个精心设计的多模态基准测试,用于全面评估大型视觉语言模型(LVLMs)在多任务理解方面的表现。MMT-Bench的构建过程分为两个主要部分:任务的分层结构和数据收集流程。

任务的分层结构

MMT-Bench的设计始于一个分层的任务结构,这有助于确保广泛的多模态任务得到覆盖。这个过程通过去重和筛选,最终确定了32个核心元任务。这些元任务进一步被细分为162个子任务,每个子任务都旨在评估模型在特定领域内的具体能力。

Figure 1 MMT-Bench的可视化内容展示了MMT-Bench由32个元任务(middle ring)组成,这些元任务进一步分解为162个子任务(outer ring)。

  • 元任务的表示(Meta-tasks): Figure 1 中间层的环展示了32个元任务,这些元任务代表了多模态理解中的高层次分类。每个元任务都是围绕多模态处理和理解的一个特定领域,如视觉识别、文本理解、场景分析等。
  • 子任务的分解(Subtasks): 外层环进一步将每个元任务细分为子任务。总共有162个子任务,这些子任务是评估模型在更具体、更细分领域能力的方式。例如,视觉识别元任务可能会被细分为物体检测、图像分类等子任务。
  • 任务数量: 对于每个元任务,图中标注了包含的子任务数量,这提供了对每个领域内评估的深度和广度的直观理解。
  • 图像和问题示例: 每个元任务旁边都展示了一个图像和问题对的例子,这有助于理解每个任务的具体内容和评估的类型。例如,一个问题可能要求模型识别图像中的物体或者解释图像中的场景。

MMT-Bench中包含的13种图像类型,如Figure 2所示这些图像类型要求模型能够解释各种视觉输入。这13种图像类型包括自然场景、合成图像、深度图、文本丰富的图像、绘画、截图、点云、医学图像等。

为了确保子任务的质量和相关性,研究团队制定了三个选择标准:子任务是否测试基本的多模态能力、是否对当前LVLMs构成挑战、以及测试样本是否可以公开获取。这些子任务覆盖了从视觉识别和定位到更复杂的推理和规划等多种能力。

数据收集流程

研究团队进行了数据集搜索,使用Google、Paper With Code、Kaggle和ChatGPT等多种来源,基于子任务的名称寻找相关的数据集。一旦确定了合适的数据集,团队就会下载并仔细评估它们的适用性,以确保它们能够用于评估特定的子任务。

接下来,研究团队构建了元数据(metadata),这是一种统一格式,用于整理下载的数据集。元数据包括图像和元信息,元信息包含了生成问题和答案所需的必要信息,如手动注释的所需能力和视觉提示类型。为了提高评估效率,在每个任务中,团队通过随机抽样的方式,将样本数量限制在200个以内。

研究团队为每个子任务生成了多选视觉问题和答案。这一步骤涉及到根据具体任务手动设计规则或使用ChatGPT生成问题和选项。例如,在草图到图像检索任务中,使用相应的图像作为正确答案,并从元数据中随机抽样生成其他选项。

MMT-Bench包含了31,325个多选视觉问题,涵盖了自然场景、合成图像、文本丰富的图像、医学图像等13种输入图像类型。这些问题覆盖了32个核心元任务和162个子任务,用于评估视觉识别、定位、推理、OCR、计数、3D感知、时间理解等14种多模态能力。

通过这一详尽的数据收集和任务设计流程,MMT-Bench能够全面评估LVLMs在多模态多任务理解方面的能力,为研究者提供了一个强大的工具,以推动多模态人工智能领域的发展。

实验

研究团队挑选了30种不同的公开可用模型,包括专有模型和开源模型,进行了深入的测试和分析。

这些模型中,包括了GPT-4V、GeminiProVision和InternVL-Chat等知名模型。GPT-4V和GeminiProVision作为专有模型,以其先进的性能和专有技术而闻名。而InternVL-Chat作为一个开源模型,代表了社区驱动的模型开发和协作精神。这些模型被选中是因为它们在视觉语言任务中展现出了卓越的能力,并且能够代表当前LVLMs的不同发展水平。

评估过程中,研究者采用了MMT-Bench中的多选视觉问题对这些模型进行了测试。这些问题覆盖了广泛的多模态任务,要求模型不仅要有出色的视觉识别能力,还需要有理解、推理和规划的能力。通过对模型在所有子任务上的表现进行综合评分,研究者能够得出每个模型的整体性能。

结果显示,即使是这些先进的模型,在MMT-Bench上的准确率也仅在63.4%到61.6%之间。InternVL-Chat以63.4%的准确率略微领先,而GPT-4V和GeminiProVision分别以62.0%和61.6%的准确率紧随其后。这一发现揭示了即便是当前最顶尖的模型,也有很大的提升空间,特别是在多任务智能方面。

研究者还探讨了不同提示方法对模型性能的影响。提示方法是指在向模型提出问题时所采用的措辞和指令的方式。研究发现,某些任务在采用特定的提示方法时,模型的表现会有所提升。这表明,问题的表述方式对于模型的理解能力和最终的输出结果有着直接的影响。

例如,在视觉推理任务中,如果提示能够更精确地引导模型关注图像中的关键部分,模型的推理能力可能会得到增强。在图像描述任务中,开放式的提示可能会鼓励模型生成更丰富、更详细的描述。这些发现对于未来设计更有效的人机交互界面和改进模型的训练方法具有重要意义。

Table 1 比较了MMT-Bench与其他现有评估基准在OCR(光学字符识别)相关任务上的样本数据。表格中列出了不同基准的样本数量、任务类型、平均单词数、最小值、中位数、最大值以及标准差。它还提供了每个基准的元任务数量、任务数量、模态类型(如图像I、文本T、视频V、点云P)和答案类型(如多选题)。

例如,MME基准有40个样本,任务类型为1,平均单词数为2.5,最小值为1,最大值为5,标准差为1.6。相比之下,MMT-Bench有600个样本,平均单词数为14.8,最小值为1,最大值为103,标准差为22.7。这表明MMT-Bench在样本数量和单词数上都显著高于其他基准,意味着它提供了更丰富的数据集来评估模型的OCR能力。

Table 2 汇总了30种不同的大型视觉语言模型(LVLMs)在MMT-Bench的32个元任务上的性能。表格列出了每个模型的总体准确率(Overall Accuracy)以及在每个元任务上的表现,包括视觉识别(VR)、定位(Loc)、OCR、计数(Count)、3D识别(3D)、视觉字幕(VC)等。

例如,InternVL-Chat-v1.2-34B模型在所有子任务上的总体准确率为63.4%,在视觉识别任务上达到了81.3%的准确率,而在文档理解(Doc Understanding)任务上准确率为58.7%。这些数据提供了对模型在不同任务类型上性能的深入洞察。

任务分析

任务分析部分利用MMT-Bench的广泛任务覆盖,对LVLMs进行了任务映射评估。

任务向量和Kendall's tau相关性度量

为了量化任务之间的关系,研究者采用了任务向量的概念。每个任务通过一个向量在高维空间中表示,这个向量基于模型在该任务上的微调权重与初始权重之间的差异。通过计算这些向量之间的余弦相似度,可以确定任务之间的接近程度。Kendall's tau是一种统计方法,用来衡量两组排名之间的相关性。在这项研究中,它被用来衡量模型在不同任务上的性能排名的相关性。

实验过程

研究者首先使用了一个预训练的模型作为探测模型,并针对每个子任务构建了任务数据集。然后,通过微调探测模型来获得每个任务的任务向量。这些向量随后被用于构建任务图,任务图上的每个点代表一个任务,点与点之间的距离表示任务之间的相似度。

结果分析

通过任务图,研究者观察到当两个任务在图上的距离较近时,模型在这些任务上的性能排名更为一致。这意味着如果两个任务在多模态能力上相似,模型在这些任务上的表现也应该相似。这种一致性为理解模型的多模态能力提供了有价值的见解,并可以帮助识别模型在特定类型的任务上可能存在的弱点。

如图,研究者利用MMT-Bench广泛的任务覆盖,通过任务图来评估LVLMs的多模态性能。通过分析任务之间的关系,可以系统地解释不同任务在多模态能力中的作用。研究者使用了任务向量和Kendall's tau相关性度量来量化任务之间的关系和模型在不同任务上的性能排名。结果表明,当两个任务在任务图上距离较近时,模型在这些任务上的性能排名更为一致。通过这个图,可以观察到任务是如何被分组的,以及这些组与模型性能之间的相关性。

任务图和任务向量的分析不仅帮助研究者理解了不同任务之间的关系,而且还可以用来预测模型在新任务上的表现。如果一个新任务与任务图上的某个任务相近,那么可以预测模型在这个新任务上也可能有类似的表现。这种方法为模型的选择和优化提供了一种基于数据的决策支持。

MMT-Bench作为一个评估多模态多任务理解的全面基准测试,为衡量在多任务通用人工智能(AGI)发展道路上的进展提供了重要工具。通过这一基准测试,研究者可以识别当前LVLMs的强项和弱点,并为未来的模型改进和应用开发提供指导。我们期待MMT-Bench能够激励社区进一步推动LVLMs的研究与开发,使我们更接近真正智能的多模态系统的实现。

论文链接:https://arxiv.org/abs/2404.16006

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/35904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js获取字符串中超链接,并加样式跳转页面

效果图 主要代码:js this.$nextTick(() > {// 给循环出来的div标签加个id为let container document.getElementById("linkTo");container.innerHTML container.textContent.replace(/(https?:\/\/[^\s])/g, function (match) {var link documen…

【微前端-Single-SPA、qiankun的基本原理和使用】

背景 在实际项目中,随着日常跌倒导致的必然墒增,项目会越来越冗余不好维护,而且有时候一个项目会使用的其他团队的功能,这种跨团队不好维护和管理等等问题,所以基于解决这些问题,出现了微前端的解决方案。…

蚁群算法求解TSP问题

一、基本原理 一只蚂蚁从一个城市出发,在访问其他城市时留下信息素踪迹。其他蚂蚁沿着这些踪迹并开辟自己的路径。信息素在访问频率较高的路径上积累得更密集,这种密度增加了其他蚂蚁选择该路径的可能性。 import randomdistances [[0, 2, 5, 7],[2, 0…

权限字符串的结构

权限字符串在Unix和Linux文件系统中用于表示文件和目录的访问权限,通常由ls -l命令生成的输出中看到,权限字符串由10个字符组成 ,其结构如下: 文件类型字符 用户权限 组权限 其他用户权限 [1] [2-4] [5-7] [8-10]1. 文件类型字符 -:普通文件 (R…

FFmpeg 系列

📚 此篇文章是先引入ffmpeg的概念以及主要的功能,后面会根据每一个特点进行详解,喜欢ffmpeg的可以持续关注。 ffmpeg是什么? FFmpeg 是一个开源的跨平台音视频处理工具,它可以用来录制、转换以及流化音视频内容。具体…

Trex测试仪使用

公司测试仪器紧张,打算安装Trex做简单的测试。如下下载最新的trex工程。 rztrex:~$ sudo mkdir /opt/trex rztrex:~$ cd /opt/trex/ rztrex:/opt/trex$ rztrex:/opt/trex$ sudo wget --no-cache https://trex-tgn.cisco.com/trex/release/latest --no-check-certif…

antd内容超过固定长度就显示...,鼠标移入则显示提示

结合antd的Tooltip组件,如果内容超过固定长度就显示…,鼠标移入则显示提示 /*** 结合antd的Tooltip组件,如果内容超过固定长度就显示...,鼠标移入则显示提示* param param0* returns*/ const EllipsisText ({ text }) > {con…

前端项目vue3/React使用pako库解压缩后端返回gzip数据

pako仓库地址:https://github.com/nodeca/pako 文档地址:pako 2.1.0 API documentation 外部接口返回一个直播消息或者图片数据是经过zip压缩的,前端需要把这个数据解压缩之后才可以使用,这样可以大大降低网络数据传输的内容&…

解决qiankun项目与子应用样式混乱问题

背景 qiankun项目用的是Vue2Antdesign2,但其中一个子应用用的是Vue3Antdesign4。集成之后发现子应用的样式混乱,渲染的是Antdesign2的样式。 解决 以下步骤在子应用里操作 1. 在main.js引入ConfigProvider ,在app全局注册ConfigProvider …

【异常错误】归一化导致的图像生成颜色偏差

由于归一化的问题,会导致生成的图像颜色偏差严重,例如会导致生成的颜色偏红黑色、淡色、青色.. 如果你生成的图像整体感官上没有问题,但是却在颜色上有很大偏差,那么很大可能就是你训练的时候归一化的程序不对 ImageFolder的实现…

Depth Anything V1,V2论文解读

Depth Anything 引言Depth Anything V1标注方法学习标注图像发挥未标注图像的潜力语义辅助感知 Depth Anything V2总体框架流程 引言 在深度估计领域,单目深度估计(Monocular Depth Estimation,MDE)是指利用单个摄像头拍摄的图像…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(十八)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 28 节) P28《27.网络连接-Http请求数据》 案例: 这里不懂后端假设服务器的前端小伙伴就需要课程源码资料了…

深度之眼(二十五)——研究生学习计划安排

文章目录 一、前言二、结构安排和规划2.1 夯实基础2.2 分方向训练(待)2.3 进阶训练 三、其他 一、前言 课题组这边是需要对机器视觉有所要求吧,也就是CV方向。这一届研三师兄也都是在大厂拿到30W的年薪了,也是需要拥抱深度学习这…

java收徒 java辅导 java试用期辅导 java零基础学习

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末报名辅导🌟 感兴趣的可以先收藏起来,还有大家…

守护变电箱消防安全,全氟己酮自动灭火片该安装在哪个位置?

变电箱、配电柜、换电柜是电力设备的重要组成部分,安全性至关重要。但在使用过程中,容易受到电气、机械、环境等因素影响,出现接触不良、短路、漏电等安全隐患,从而引发火灾事故。为了及时防范火灾风险,提前安装一款能…

【LeetCode】每日一题:数组中的第K大的元素

给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。 请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。 你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。 解题思路 第一种是快排,快…

Vue中数组的【响应式】操作

在 Vue.js 中,当你修改数组时,Vue 不能检测到以下变动的数组: 当你利用索引直接设置一个项时,例如:vm.items[indexOfItem] newValue当你修改数组的长度时,例如:vm.items.length newLength 为…

网卡基础命令

使用 nmcli 可以执行各种网络管理任务,包括重新加载连接配置、重启网卡以及关闭和启用网卡。以下是一些常见的基础命令及其用途: 重新加载连接配置 sudo nmcli connection reload 重新加载所有网络连接的配置文件。 重启网卡(网络设备&#x…

Java基础(二)——数组,方法,方法重载

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

01_02_Mybatis的配置文件与基于XML的使用

1、引入日志 在这里我们引入SLF4J的日志门面&#xff0c;使用logback的具体日志实现&#xff1b;引入相关依赖&#xff1a; <!--日志的依赖--><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId><version&g…