大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO

谈到多模态大模型的应用场景,除了生成任务以外,应用最广泛的可能就是在图像和视频中进行目标检测。

目标检测要求从图像中识别并标注出所有感兴趣的对象,并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框,标记出图像中每个目标的位置和类别,如人、车、动物等。

然而,今天我们要聊的并非仅限于对象类别的目标检测,而是一个更具挑战性的任务——Referring Expression Comprehension(REC),即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。

比如根据以下描述,标记图中的对象:

这款淡绿色的长方形橡皮上绘有一只熊,旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角,橡皮放在杂乱的桌子上,周围是各种各样的艺术材料和图纸。

REC更强调根据特定的自然语言描述定位和标记目标,适用于需要通过语言与视觉信息交互的场景,也是目前多模态大模型领域研究较少的任务。

现在常用的评估基准一般有三个:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(2016年)。但是简单的描述与单一测试样本,对于很多强大的大模型来说 so easy,例如CogVLM 在RefCOCO基准上达到了92.44% 的准确率。

这些基准已经不足以有效评估现代多模态大模型理解多样语言输入并关联语言与视觉元素的细微能力。因此,港科大提出了多模态大模型时代评估REC的新基准——Ref-L4,规模更大,高度多样化,更长的指称表达并具有丰富的词汇量。在Ref-L4上对24种大模型进行了评估,普遍得分偏低,GPT-4V还不足10%,极具挑战性。

论文标题:
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

论文链接
https://arxiv.org/pdf/2406.16866

github链接
https://github.com/JierunChen/Ref-L4

现有基准存在较高的错误率

现在常用的评估基准一般有三个:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(2016年):

  • 在RefCOCO中,指称表达相当简洁,包含“女士”、“黄色”这样的单个词汇,以及“最左边的人”和“白衬衫”这样的简短描述。

  • RefCOCO+有意排除了RefCOCO中常见的位置介词,倾向于如“只有冰的塑料杯”和“屏幕上的男人”这样短而富含语义的表达。

  • RefCOCOg提供了更详细的标注,例如“带有盘子、披萨、饮料罐和玻璃杯的食物桌”和“带有两把木椅的红白格子桌”。

作者在手动评估了RefCOCO、RefCOCO+和RefCOCOg的验证集和测试集的标注错误率,发现这些基准普遍存在较高的错误率

标注错误包括拼写错误、指称表达与目标实例的不匹配,以及不准确的边界框标注。

经过统计发现,RefCOCO、RefCOCO+和RefCOCOg的标注错误率分别为14%、24%和5%。

为此, 作者手动排除了问题实例。然后重新评估了四个能够处理REC任务的大型多模态模型——ONE-PEACE,OFA-L ,Qwen-VL以及CogVLM-Grounding

所有的模型在清理后的基准上的准确率有了显著提高,这表明基准测试中的噪声影响了模型的真实能力。

可以看到,这些基准对于大模型来说 so easy,准确率可以达到80+,最高达到了94+。因此作者提出了一个更具挑战的REC基准——Ref-L4。

全面的指称表达理解基准——Ref-L4

Ref-L4的优势

Ref-L4有四个显著特点:

  • 大规模:Ref-L4 包含 9,735 张图片,18,653 个独特实例,总共有 45,341 个标注,远超 RefCOCO、RefCOCO+ 和 RefCOCOg。RefCOCOg 只有 3,900 张图片,7,596 个实例和 14,498 个标注。

  • 高多样性:Ref-L4 包含 365 个独特类别。而 RefCOCO 系列来自 COCO 2014 数据集,仅涵盖 78 个类别。Ref-L4还覆盖了更广泛的实例规模,实例面积从 30 到 3,767 不等(以实例面积的平方根度量)。

  • 详细的指代表达:Ref-L4 中每个指代表达都是对特定实例的详细描述,长度从 3 到 117 个词不等,平均长度为 24.2 个词。相比之下,RefCOCO、RefCOCO+ 和 RefCOCOg 的平均标注长度分别为 3.6、3.6 和 8.4 个词。

  • 丰富的词汇量:由于指代表达的详细性,Ref-L4 拥有 22,813 个词汇,比 RefCOCO、RefCOCO+ 和 RefCOCOg 的词汇量大四到六倍。

Ref-L4构建

数据来源

Ref-L4基准数据集来源于两个部分:1) RefCOCO、RefCOCO+ 和 RefCOCOg 数据集的清理后的验证和测试集;2) 大规模目标检测数据集 Objects365 的测试集。Objects365 数据集提供了更广泛的类别、多样的实例尺寸、更高的图像分辨率和更复杂的场景。经过清洗与处理后,Ref-L4 基准数据集共包含 9,735 张图像和 18,653 个实例。

指称表达生成。

给定目标实例及其对应的图像,利用GPT-4V和人类的循环,生成精确和详细的指称表达,分成三个步骤,如下图所示:

  1. 使用GPT-4V对从原图中裁剪出来的实例与提示生成一个与上下文无关的描述,这一步只针对Objects365 数据集,因为RefCOCO的每个实例已经有简短的描述。

  2. 由于GPT-4V 更关注图像中用红圈标出的实例,因此将目标实例用红圈标出,让 GPT-4V 生成上下文相关的指代表达,指导 GPT-4V 描述各种特征,如颜色、大小、位置和上下文。此外,在提示中提供步骤1中生成的与上下文无关的描述,以减少幻觉问题,从而生成更准确的描述。

  3. 人工手动审核所有生成的指代表达,纠正错误。确保每个表达准确地描述实例,并且内容真实、无害。

基准扩展

为了评估 REC 模型对多样化输入的鲁棒性,作者还使用 GPT-4 与不同的提示生成了每个指称表达的重述版本,并同样进行了人工手动审核。

Ref-L4评估实验

作者对24个能够执行REC任务的代表性多模态大模型进行了评估。根据它们的输出类型将其分为两类:生成边界框的模型和生成分割掩码的模型。对于输出分割掩码的模型,将这些掩码转换为紧凑的边界框,以便评估。

在生成边界框的模型中,强大如GPT-4V的准确率不足10%,CogVLM-Grounding表现出最佳性能,而GlaMM在生成掩码的模型中处于领先地位。但仍然有很大的提升空间。

类别性能

另外,作者按照基准中的类别统计了不同类别下模型的性能,一共有365个类别标签,按它们的类别平均性能降序排列,如下图:

结果显示存在明显的训练偏见问题,这四个模型在某些常见类别上的表现都较差。

规模感知评估

为了评估模型处理不同规模实例的能力,将基准中的所有样本分为小、中和大三类。实例的大小定义为其面积的平方根,小实例是指小于 128 的,中实例的大小在 128 到 256 之间,大实例则超过256。

在输出边界框的模型中,CogVLM-Grounding 在小和中等实例上表现出色,而SPHINX-v2-1k 在大实例上取得了最佳性能。对于输出掩码的模型,GlaMM在三类大小中都优于其他模型。

多数据源评估

Ref-L4基准源于COCO和Objects365数据集。作者评估了模型在不同子集上的性能,这些子集包括:

  1. COCO:来自COCO的数据子集。

  2. O365-P1:Objects365中的子集,其类别在COCO中也存在。

  3. O365-P2:Objects365中的子集,其类别在COCO中不存在。

“COCO”子集的准确性较高,因为大多数模型基于RefCOCO系列进行训练,对Objects365图像接触较少。“O365-P1”的准确性高于“O365-P2”,因为“O365-P2”包含更多罕见的类别。

结论

本文指出了当前REC基准的局限性,如标注不准确和指称表达过于简短。为更好地评估多模态大模型在REC任务中的表现,提出了规模更大、描述更详细的REC新基准——Ref-L4,并使用多种评估协议对24个模型进行了评估。

相信Ref-L4能成为研究人员和开发者的宝贵资源,推动更强大和多用途REC模型的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【js面试题】js的数据结构

面试题:说说你了解的js数据结构 JavaScript中的数据结构是编程的基础,它们帮助我们以高效的方式存储和操作数据。 下面将详细介绍 这些数据结构的来源、概念和应用场景。 数组 Array 来源: 数组是一种线性数据结构,起源于计算…

青岛外贸建站公司wordpress网站模板

电子数码wordpress网站模板 电子数码wordpress网站模板,做数码电子的生产厂家或外贸公司官方网站模板。 https://www.jianzhanpress.com/?p3161 金属不锈钢wordpress外贸主题 适合从事金属不锈钢生产、加式或做外贸的公司,简洁wordpress外贸主题模板…

Linux走进网络

走进网络之网络解析 目录 走进网络之网络解析 一、认识计算机 1.计算机的发展 2.传输介质 3.客户端与服务器端的概念 交换机 路由器 二、计算机通信与协议 1. 协议的标准化 2. 数据包的传输过程 OSI 协议 ARP协议 3. TCP/IP:四层模型 4. TCP三次握手和四次挥手…

BUG: npm error `electron_mirror` is not a valid npm option

npm error electron_mirror is not a valid npm option 环境 windows 11 node v20.15.0 npm v10.7.0详情 在运行 npm run mirror 命令时出现错误。这是一个设置镜像的命令。 我是没事干了,运行这个命令,这个命令在我这里根本就是运行不了。这个命令一…

Vue2前端实现数据可视化大屏全局自适应 Vue实现所有页面自适应 Vue实现自适应所有屏幕

Vue自适应所有屏幕大小,目前页面自适应,尤其是数据可视化大屏的自适应更是案例很多 今天就记录一下使用Vue全局自适应各种屏幕大小的功能 在Vue.js中创建一个数据大屏,并使其能够自适应不同屏幕大小,通常涉及到布局的响应式设计、CSS媒体查询、以及利用Vue的事件系统来处理…

【matlab】【python】爬虫实战

目录 引言 具体步骤 1.设置请求选项 2.发送请求并获取响应 3.设置正则表达式 4.执行正则表达式匹配 matlab完整代码 python代码示例 引言 在当今这个信息爆炸的时代,数据已成为推动社会进步和企业发展的核心动力之一。随着互联网的普及和技术的飞速发展&am…

Why Can’t Robots Click The “I’m Not a Robot” Box On Websites?

Clicking a tiny box tells Google all they need to know about your humanity 你好,我是 Jiabcdefh。 if you’ve browsed the internet for any amount of time, you will likely come across a reCAPTCHA box. These boxes appear when you first enter certain websites…

RIP环境下的MGRE网络

首先将LSP的IP地址进行配置 其他端口也进行同样的配置 将serial3/0/1配置25.0.0.2 24 将serial4/0/0配置35.0.0.2 24 将GE0/0/0配置45.0.0.2 24 进行第二步 R1与R5之间使用ppp的pap认证 在R5中进行配置 在aaa空间中创建账号和密码 将这个账号和密码使用在ppp协议中 然后…

用XDR的思路保护API安全

云计算飞速发展的今天,越来越多应用程序已经转为选择云原生架构,这就少不了Serverless、微服务、API等技术的协助。 但同时也有越来越多的企业认识到,一定程度的“API安全”在整体安全与合规态势中发挥着至关重要的作用。然而,对…

【LLM】二、python调用本地的ollama部署的大模型

系列文章目录 往期文章: 【LLM】一、利用ollama本地部署大模型 目录 文章目录 前言 一、ollama库调用 二、langchain调用 三、requests调用 四、相关参数说明: 总结 前言 本地部署了大模型,下一步任务便是如何调用的问题&#xff0c…

2.硬盘和内存区别

2.2 磁盘比内存慢几万倍? 存储器方面的设备,分类比较多,那我们肯定不能只买一种存储器,比如你除了要买内存,还要买硬盘,而针对硬盘我们还可以选择是固态硬盘还是机械硬盘。 相信大家都知道内存和硬盘都属…

使用 Hugging Face 模型时遇到的问题

题意: I load a float32 Hugging Face model, cast it to float16, and save it. How can I load it as float16? 我加载了一个float32的Hugging Face模型,将其转换为float16,并保存了。我该如何以float16的形式加载它呢? 问题…

理解算法复杂度:时间复杂度详解

引言 在计算机科学中,算法复杂度是衡量算法效率的重要指标。时间复杂度和空间复杂度是算法复杂度的两个主要方面。在这篇博客中,我们将深入探讨时间复杂度,了解其定义、常见类型以及如何进行分析。 什么是时间复杂度? 时间复杂度…

昇思25天学习打卡营第4天|MindSpore数据集和数据变换

# 打卡 目录 # 打卡 Dateset:Pipeline 的起始 具体步骤 数据处理 Pipeline 代码例子 内置数据集的情况 自定义数据集的情况 可迭代的数据集 生成器 Transforms:数据预处理 代码例子 通用变换Compose 文本变换 Text Lambda变换 Dateset&…

【2024华为HCIP831 | 高级网络工程师之路】刷题日记(BGP)

个人名片:🪪 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️ 零基础学Java——小白入门必备🔥重识C语言——复习回顾🔥计算机网络体系———深度详讲HCIP数通工程师-刷题与实战🔥🔥

ubuntu22.04搭建mysql5.7

1.1 下载mysql安装包 MySQL下载地址:MySQL :: Download MySQL Community Server (Archived Versions) #下载wget https://cdn.mysql.com/archives/mysql-5.7/mysql-server_5.7.29-1ubuntu18.04_amd64.deb-bundle.tar#解压tar -xvf ./mysql-server_5.7.29-1ubuntu18…

bash: redi-cli: 未找到命令...

问题描述 在执行命令:redi-cli --bigkeys 提示:bash: redi-cli: 未找到命令... 确定服务器是否有Redis进程 ps -ef | grep redis查找Redis 文件信息 find / -name "redis-*"进入到当前目录 cd /usr/bin/再次执行命令 涉及redis-cli 连…

2.作业2

目录 1.作业题目 A图 B代码 2.css盒子模型 0.css盒子模型 1.外边距(margin) 2.边框(border) 3.内边距(padding) ​编辑 3.GET方法与POST方法的区别 学习产出: html的作业 1.作业题目 A图…

九科bit-Worker RPA 内容学习

简介: 什么是RPA? RPA(Robotic Process Automation,机器人流程自动化)本质上是一种“AI数字员工”,针对企业中存在的大批量、重复性、机械化人工操作,通过模拟人的工作流程使之实现自动化。 b…

Chrome 127内置AI大模型攻略

Chrome 127 集成Gemini:本地AI功能 Google将Gemini大模型整合进Chrome浏览器,带来全新免费的本地AI体验: 完全免费、无限制使用支持离线运行,摆脱网络依赖功能涵盖图像识别、自然语言处理、智能推荐等中国大陆需要借助魔法,懂都懂。 安装部署步骤: 1. Chrome V127 dev …