哪个视觉语言模型更优?InstructBLIP、MiniGPT-4?全面评估基准LVLM-eHub告诉你

图片

 夕小瑶科技说 原创
 作者 | 王思若

LLaMA、GPT-3等大型语言模型实现了对自然语言强大的理解和推理能力,为AI社区构筑了强大的语言基座模型。进而,继续迭代的GPT-4,更是赋予了模型处理图像的视觉能力。

如今,构建强大的多模态模型已经成为了社区的共识,BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型(Vision-Language Models,LVLMs)犹如井喷式被相继提出。

现有视觉语言模型是否真正对齐了图像和文本模态呢?究竟哪种视觉语言模型能力更优秀呢?

现有视觉语言模型孰强孰弱无疑是研究者关注的焦点,上海人工智能实验室构建了评估基准LVLM-eHub对包括InstructBLIP和MiniGPT-4等八种视觉文本模型进行了综合性评估。

研究发现,现有的如InstructBLIP等指令微调视觉语言模型,严重过拟合于现有任务,在真实场景中的泛化能力表现很差。此外,模型极容易出现对象幻觉问题,生成图像中并未出现的物体描述。

 大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!

论文题目:
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models

论文地址:
https://arxiv.org/pdf/2306.09265.pdf

一、构建六类多模态定量性能评估数据集,并搭建模型互动评测平台

LVLM-eHub由定量能力评估和在线互动评测平台组成,具体来说,一方面定量能力评估在47个标准视觉语言基准数据集上广泛评估LVLM在视觉感知、视觉知识获取、视觉推理、视觉常识、对象幻觉和具身智能6类多模态能力。

另一方面,搭建在线互动评测平台以众包的方式对视觉语言模型进行匿名随机成对对战,在开放世界的问答场景中提供用户层面的模型排名。

图片

视觉感知: 视觉感知是识别图像中的场景或物体的能力,是人类视觉系统的初级能力。包括图像分类任务,多类识别和物体计数任务。

视觉知识获取: 视觉知识获取需要超越感知来理解图像并获取知识。包括光学字符识别、关键信息抽取和图像描述任务。

视觉推理: 视觉推理需要全面理解图像及相关文本。为评估LVLM的视觉推理能力,包括三个任务,包括视觉问答(VQA)、视觉蕴含和基于知识的图像描述任务。

视觉常识: 这项评估通过使用ImageNetVC和视觉常识推理(VCR)来测试模型对通用共享人类知识的理解。具体来说,ImageNetVC用于零样本视觉常识评估,如颜色和形状,而VCR涵盖各种场景,如空间、因果和心理常识。

对象幻觉: 视觉语言模型存在对象幻觉问题,即生成的描述对象与目标图像不一致,本文在MSCOCO数据集上评估视觉语言模型的对象幻觉问题。

具身智能: 具身智能旨在创建人形机器人,并让他们学习解决需要环境交互的复杂任务,本文利用EmbodiedGPT中的高级任务作为基准。

本文调查视觉语言模型在各类新任务上的零样本能力来评估上述六类能力,具体而言,本文将零样本评估视为不同任务形式的提示工程:

  • 问答:设计适当的视觉问题提示来确保视觉语言模型生成有意义的结果,例如,“what is written in the image” 来作为OCR任务的文本提示。

  • 基于前缀的分数:对于多选选择任务,对给定图像一定的视觉提示,让模型生成图像和文本的似然度,把生成最大似然度结果的视觉提示作为答案。

  • 多轮推理:利用诸如ChatGPT之类的LLM为给定问题生成子问题,视觉语言模型提供相应的子答案,另一个LLM评估子答案的质量。通过这样的流程迭代进行,直到获得满意的答案或达到预定义的最大迭代次数。

  • 用户投票:让人类评估视觉语言模型在特定上下文中生成文本的质量、相关性和有用性。为了保持评估的公平性,本文会在评估过程中随机打乱模型输出顺序并对输出进行匿名化。

更有意思的,研究还搭建了视觉语言模型互动评测平台,让模型按照锦标赛的形式进行配对,用户可以使用图像和文本输入分别和配对的模型就任何话题进行聊天,模型真实世界的条件。在聊天阶段之后,用户为模型进行投票,让用户作为裁判,这可以带来比传统评估指标更有说服力的评估结果。

让多模态模型来一场‘宝可梦世界锦标赛’,就是你了,皮卡丘,LLaVA模型~

图片

二、现有视觉语言模型的测评结果

文章对8个代表性模型进行了测评,包括BLIP2,LLaVA,LLaMA-Adapter V2,MiniGPT-4,mPLUG-Owl,Otter,InstructBLIP和VPGTrans。

各大模型在六大类任务上都取得了相对不错的零样本能力,尤其是InstructBLIP更是近乎在所有任务取得了远超其他模型的性能表现。

图片

InstructBLIP在各种任务上都取得了远超其他模型的性能表现

但作者悲观的指出,这种优越的性能表现究其原因是模型过拟合的表现。

一方面,InstructBLIP在160万VQA数据集上进行了指令微调,远超过其他视觉语言模型,因此,在现存的in-domain任务中定量评估中表现及其良好,另一方面,在接近真实场景的在线互动评测中,反而InstructBLIP要比其他模型差很多,反而mPLUG-Owl和MiniGPT-4性能表现最好。

图片

8大视觉语言模型的指令微调数据集

图片

InstructBLIP在接近真实场景的在线互动评测中,表现很差,反而其他的例如mPLUG-Owl, MiniGPT-4, Otter等模型性能表现不错。

好消息,更大规模的指令微调数据集可以提升模型在in-domain任务上的性能表现,但坏消息,模型对这些数据验证过拟合了,因此,如何构建强大以及更广泛通用性的视觉语言模型依然有很长的路去走!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/62666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python conda实践 sanic框架gitee webhook实践

import subprocess import hmac import hashlib import base64 from sanic.response import text from sanic import Blueprint from git import Repo# 路由蓝图 hook_blue Blueprint(hook_blue)hook_blue.route(/hook/kaifa, methods["POST"]) async def kaifa(req…

【Unity3D】UI Toolkit容器

1 前言 UI Toolkit简介 中介绍了 UI Builder、样式属性、UQuery,本文将介绍 UI Toolkit 中的容器,主要包含 VisualElement、ScrollView、ListView、UI Toolkit,官方介绍详见→UXML elements reference。 2 VisualElement(空容器&…

Gazebo仿真环境下的强化学习实现

Gazebo仿真环境下的强化学习实现 主体源码参照《Goal-Driven Autonomous Exploration Through Deep Reinforcement Learning》 文章目录 Gazebo仿真环境下的强化学习实现1. 源码拉取2. 强化学习实现2.1 环境2.2 动作空间2.3 状态空间2.4 奖励空间2.5 TD3训练 3. 总结 1. 源码…

简述SpringMVC

一、典型的Servlet JSP JavaBean UserServlet看作业务逻辑处理(Controller)User看作模型(Model)user.jsp看作渲染(View) 二、高级MVC 由DispatcherServlet对请求统一处理 三、SpringMVC MVC与Spr…

springboot实战(四)之整合mybatis-plus

目录 环境: 准备: 开始: 1.创建表t_user 2.项目添加依赖 3.配置 1.配置mysql链接信息 2.在启动类配置mapper扫描路径 4.创建实体类 5.创建mapper 6.测试 环境: jdk:1.8 springboot版本:2.7.15…

面试题-React(七):React组件通信

在React开发中,组件通信是一个核心概念,它使得不同组件能够协同工作,实现更复杂的交互和数据传递。常见的组件通信方式:父传子和子传父 一、父传子通信方式 父组件向子组件传递数据是React中最常见的一种通信方式。这种方式适用…

VMware tools的安装以及按钮灰色的解决方法

VMware tools的安装 ** 注意:** 新版本的 VMware 会自动安装的 VMware tools,如何测试 VMware tools 呢?在Windows 系统里复制一段话,能粘贴到 Ubuntu 系统里终端里,说明 VMware tools 已经安装了。 没有安装的请参考…

问道管理:暂停交易!港交所最新宣布,北向资金也受影响!大涨超180%

今日上午A股商场全体涨跌互现,煤炭板块涨幅居前。新股方面也体现较好,有一只新股盘中一度暴涨超越180%。 别的,飓风“苏拉”对股市也产生了影响。港交所最新公告称,因为八号飓风信号现正收效,今日(星期五&…

抢先体验|乐鑫推出 ESP32-S3-BOX-3 新一代开源 AIoT 开发套件

乐鑫科技 (688018.SH) 非常高兴地宣布其开发套件阵容的最新成员 ESP32-S3-BOX-3。这款完全开源的 AIoT 应用开发套件搭载乐鑫高性能 ESP32-S3 AI SoC,旨在突破传统开发板,成为新一代开发工具的引领者。 【乐鑫新品抢先体验】ESP32-S3-BOX-3 新一代开源 A…

代码随想录刷题笔记 (python版本) 持续更新.....

代码随想录刷题笔记总结: https://www.programmercarl.com/ 个人学习笔记 如有错误欢迎指正交流1. 数组 1.1 理论基础 详细介绍:https://www.programmercarl.com/%E6%95%B0%E7%BB%84%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 数组下标都是从0开始的。数组内存空间的地址是…

jmeter单接口和多接口测试

最近接触到了多接口串联,接口串联的技术会在其他帖子有说明,其核心技术点就是通过正则表达式和变量来实现接口的关联。目前为止呢笔者用到的地方还只有一个,就是关于session保持的时候。但是看到很多资料都说测试过程中经常遇到b接口需要用a接…

jvm 新生代的区域划分

虚拟机将内存分为一块较大的 Eden 空间和两块较小的 Survivor 空间,每次分配内存只使用 Eden 和其中一块 Survivor。发生垃圾收集时,将 Eden 和 Survivor 中仍然存活的对象一次性复制到另外一块 Survivor 空间上,然后直接清理掉 Eden 和已用过…

【学习笔记】计算机视觉对比学习综述

计算机视觉对比学习综述 前言百花齐放InstDiscInvaSpreadCPCCMC CV双雄MoCoSimCLRMoCo v2SimCLR v2SwAV 不用负样本BYOLSimSiam TransformerMoCo v3DINO 总结参考链接 前言 本篇对比学习综述内容来自于沐神对比学习串讲视频以及其中所提到的论文和博客,对应的链接详…

Scikit-Learn 和深度学习怎么选择

大家好,今天我们要聊聊一个机器学习的话题:Scikit-Learn 和深度学习,到底哪一个更适合解决你的问题?我们先来看看这两种技术的异同点,然后再讲讲如何在实际问题中做出选择。 1. Scikit-Learn 与深度学习:谁…

java+springboot+mysql校园跑腿管理系统

项目介绍: 使用javaspringbootmysql开发的校园跑腿管理系统,系统包含超级管理员,系统管理员、用户角色,功能如下: 超级管理员:管理员管理;用户管理(充值);任…

C++面试题(叁)---操作系统篇

目录 操作系统篇 1 Linux中查看进程运行状态的指令、查看内存使用情况的指令、 tar解压文件的参数。 2 文件权限怎么修改 3 说说常用的Linux命令 4 说说如何以root权限运行某个程序。 5 说说软链接和硬链接的区别。 6 说说静态库和动态库怎么制作及如何使用,区…

自动化实时在线静电监控系统的构成

自动化实时在线静电监控系统是一种帮助企业监测和管理静电问题的技术解决方案。静电在许多工业和商业环境中都是一个潜在的风险和生产问题。通过使用这样的监控系统,企业可以及时发现并采取对策来预防或减轻可能的静电问题。 该系统通常由以下组成部分构成&#xf…

三、定长内存池

三、定长内存池 我们知道申请内存使用的是malloc,malloc其实就是一个通用的大众货,什么场景下都可以使用,而什么场景下都可以用就意味着什么场景下都不会有很高的性能,下面我们就先来设计一个定长内存池作为一个开胃菜&#xff0…

linux字符串处理

目录 1. C 截取字符串,截取两个子串中间的字符串linux串口AT指令 2. 获取该字符串后面的字符串用 strstr() 函数查找需要提取的特定字符串,然后通过指针运算获取该字符串后面的字符串用 strtok() 函数分割字符串,找到需要提取的特定字符串后,…

简单使用_matlab生成数据帧

文章目录 生成数据帧参考 生成数据帧 代码如下,代码很简单,有几点要注意, 较高版本的MATLAB中支持0x的写法使用bitand进行位运算使用strcat函数进行字符串拼接时,如果需要插入空格,要使用双引号 cmd_ay(1) 0x33; …