如何评估基于指令微调的视觉语言模型的各项能力-MMBench论文解读

1. 传统基准的固有局限

  1. VQAv2:视觉问题回答数据集,主要用于评估视觉理解与推理能力。
  2. COCO Caption:图像描述生成数据集,用于评估模型对图像内容的理解与描述能力。
  3. GQA:结合常识的视觉问题回答数据集。
  4. OK-VQA:需要外部知识的视觉问题回答数据集。
  5. TextVQA:图像中包含文本的问题回答数据集。
  6. 主观性基准(例如mPLUG-Owl等):依赖人类评估

这些传统基准测试存在以下问题:

  1. 评价指标要求预测与参考答案完全匹配,可能导致许多误判样本。
  2. 基准测试侧重评估特定任务,无法对模型的多方面能力进行细粒度评估。
  3. 提供的反馈有限,难以指导模型的进一步优化。

本文提出的观点:论文链接:https://arxiv.org/pdf/2307.06281.pdf

2. 本文摘要

MMBench,是一个针对大规模多模态模型的新型评估基准。随着视觉语言模型在感知和推理能力方面的显著进步,如何有效地评估这些模型成为了一个主要难题。传统基准如VQAv2和COCO Caption提供了定量性能测量,但在细粒度能力和鲁棒性评估指标方面存在不足。而像OwlEval这样的主观性基准虽然能够全面评价模型能力,但其可扩展性差且易受偏见影响。

MMBench设计了一套综合的评估流水线,包含两大核心元素:

  • 一是精心构建的超越现有同类基准的数据集,该数据集包括2,974个经过细致挑选的问题,覆盖了20种不同类型的细粒度技能;
  • 二是引入了创新的CircularEval策略,并结合使用ChatGPT技术来将模型生成的自由格式预测转化为预定义选项,以实现对模型预测的更可靠评估。

通过MMBench对14个知名视觉语言模型进行全面评估后发现,现有模型在多项选择题上的表现普遍不尽人意,大多数模型在MMBench测试集上面对最多4个选项的选择题时,Top-1准确率未达到50%,表明当前VLMs在应对不同提示下的预测一致性以及跨实例理解与逻辑推理等方面的能力有限。特别是跨实例理解和逻辑推理能力显得尤为薄弱,需要作为未来研究的重要方向加以改进。

此外,文档提到对象定位数据的引入有望提高模型性能,其中Kosmos-2和Shikra等模型在应用了此类数据后显示出明显的性能提升。同时,文中列举了多个视觉语言模型及其参数规模,并报告了它们在MMBench开发集上的具体表现,强调了采用更加严格、合理的CircularEval评估策略的重要性。


 

3. 核心知识点

  1. 视觉语言模型评估挑战
    • 文章指出当前大规模视觉语言模型的发展迅速,但对其有效评估仍是一大挑战。
  • 传统评估基准(如VQAv2、COCO Caption)侧重于定量性能指标,但缺乏对模型细粒度能力的精细评估及评估指标的鲁棒性。
  1. MMBench基准介绍ÿ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考高级架构师:文件管理系统概念和例题

一、AI 讲解 文件管理系统是操作系统中用于管理文件的一部分,负责文件的存储、检索、共享和保护。文件管理的一个核心概念是文件系统的组织方式,其中树形目录结构是一种常见的组织方式。 树形目录结构 树形目录结构是一种将文件以层级方式组织的方法&…

typescript的javascript的区别

TS和JS的区别: 类型不同:JS是一种脚本语言,用于创建动态网页,弱类型,没有静态类型选项;TS是JS的超集,用于解决大型项目的代码复杂性,强类型,支持静态和动态类型&#xf…

公司——深圳办理公司流程

文章目录 操作步骤网站 问题解答1. 不同企业类型有什么区别?内资企业外资企业个体工商户区别 2. 内资企业中具体的分类有什么区别?公司个人独资企业合伙企业区别 建议直接找一些代理中介,初创公司2400左右即可完成公司注册红本地址挂靠1年的财…

武汉星起航电子商务公司领航跨境电商新纪元,助力品牌走向全球

在全球经济一体化的时代背景下,跨境电商正成为推动国际贸易增长的重要力量。武汉星起航电子商务有限公司,作为一家专注于提供一站式解决方案的跨境电商服务商,凭借其丰富的实战经验和专业团队,在行业中取得了令人瞩目的成绩。 自…

QT----YOLOv5检测平台

目录 1 opencv环境安装1.1 报错Could NOT find CUDNN (missing: CUDNN_LIBRARY CUDNN_INCLUDE_DIR) (Required is at least version "7.5")1.2 使用camkevs编译opencv4.8.01.3 报错operator !":重载函数具有类似的转换(编译源文件 H:\opencv-4.8.0\opencv-4.8.0…

【算法】删除数组中的重复元素 - 双指针

题目 给定一个有序数组,要求删除数组中的重复元素,不允许创建新数组,返回删除重复元素后的数组长度。 原理 定义一个快指针 j 和一个慢指针 i,慢指针从下标0开始,快指针从下标1开始,遍历数组。如果两个下…

Python环境搭建—安装Python3解释器

🥇作者简介:CSDN内容合伙人、新星计划第三季Python赛道Top1 🔥本文已收录于Python系列专栏: 零基础学Python 💬订阅专栏后可私信博主进入Python学习交流群,进群可领取Python视频教程以及Python相关电子书合…

43.1k star, 免费开源的 markdown 编辑器 MarkText

43.1k star, 免费开源的 markdown 编辑器 MarkText 分类 开源分享 项目名: MarkText -- 简单而优雅的开源 Markdown 编辑器 Github 开源地址: https://github.com/marktext/marktext 官网地址: MarkText 支持平台: Linux, macOS 以及 Win…

设计模式(19):策略模式

策略模式 策略模式对应与解决某一个问题的一个算法族,允许用户从该算法族中任选一个算法解决某一问题,同时可以方便的更换算法或者增加新的算法。并且由客户端决定调用哪个算法。 本质 分离算法,选择实现; 策略模式角色 上下…

单例模式以及线程安全问题

单例模式的概念 单例模式是指的是整个系统生命周期内,保证一个类只能产生一个实例对象 保证类的唯一性 。 通过一些编码上的技巧,使编译器可以自动发现咱们的代码中是否有多个实例,并且在尝试创建多个实例的时候,直接编译出错。 …

力扣刷题 二叉树的迭代遍历

题干 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2,3] 输出:[1,2,3]示例 2: 输入:root [] 输出:[]示例 3: 输入:root [1] 输…

Linux集群(二)集群搭建与keeplived配置

目录 一、集群搭建 1.复制3份Tomcat 2.测试Tomcat 3. 配置nginx.conf配置文件 二、keeplived 1.什么是keeplived 2.keeplived特点 3.下载和安装 3.1下载 3.2安装 3.3配置keeplived.conf配置文件 3.4测试 一、集群搭建 集群的主要目的是解决并发的问题。 1.复制3…

用户增长方法论(未完)

用户增长知识框架 1、确定用户增长的北极星指标 2、认清适合的用户增长驱动模式 3、确认用户增长的核心杠杆策略 4、寻找用户增长的魔法数字 5、基于魔法数字设计增长策略 6、通过AB实验验证增长策略 什么是用户增长? 用户增长的精髓是一套体系和方法,…

Windows程序设计课程作业-1

文章目录 1. 作业内容2. 设计思路分析与难点3. 代码实现3.1 接口定义3.2 工厂类实现3.3 委托和事件3.4 主函数3.5 代码运行结果 4. 代码地址5. 总结&改进思路6. 阅读参考 1. 作业内容 使用 C# 编码(涉及类、接口、委托等关键知识点),实现…

信创环境ES索引管理脚本:close, delete

背景 elastic-curator在信创环境无现成安装包,且现成一般无法联网,此时通过脚本管理es索引是最佳选择。 1, 脚本内容: es-close-del.sh [rootmyprojtest001 ]# cat es-close-del.sh #/bin/bash#elastic地址 ELASTIC_URL127.0.0.1:9200 #默认的删除时间…

网络协议——VRRP(虚拟路由冗余协议)原理与配置

1. VRRP概述 单网关出现故障后下联业务中断,配置两个及以上的网关时由于IP地址冲突,导致通讯时断时续甚至通信中断。VRRP组播类的网络层协议 2. 协议版本 VRRP v2: 支持认证,仅适用于IPv4网络 VRRP v3: 不支持认证, 适用于IPv4和IPv6两种网…

Revit 2025新功能一览~

Hello大家好!我是九哥~ Revit2025已经更新,安装后,简单试了下,还是挺不错的,流畅度啊,新功能啊,看来还是有听取用户意见的,接下来就简单看看都有哪些新功能。 好了,今天的…

蓝桥杯刷题 前缀和与差分-[3142]可获得的最小取值(C++)

问题描述 妮妮学姐手头有一个长度为n的数组a,她想进行次操作来取出数组中的元素。每次操作必须选择以 下两种操作之一: 取出数组中的最大元素 取出数组中的最小元素和次小元素 妮妮学姐希望在进行完 次操作后,取出的数的和最小。她感觉有些困难&…

【大数据存储】实验七 Spark RDD

Spark RDD操作实验 一、实验目的 (1)掌握使用Spark访问本地文件和HDFS文件的方法 (2)熟练掌握在Spark Shell中对Spark RDD的操作方法 (3)掌握Spark应用程序的编写、编译打包和运行方法 二、.实验平台 …