BRAVE:扩展视觉编码能力,推动视觉-语言模型发展

视觉-语言模型(VLMs)在理解和生成涉及视觉与文本的任务上取得了显著进展,它们在理解和生成结合视觉与文本信息的任务中扮演着重要角色。然而,这些模型的性能往往受限于其视觉编码器的能力。例如,现有的一些模型可能对某些图像特征视而不见,或者在处理图像时产生视觉幻觉,这些局限严重制约了VLMs在复杂场景中的应用。

BRAVE方法正是为了解决这些问题而诞生的。它通过结合多个具有不同视觉偏好的视觉编码器,拓宽了模型对视觉信息的编码能力。与传统的单一编码器方法相比,BRAVE能够捕获更加丰富和多样化的视觉特征,从而显著提升了模型在图像描述和视觉问答等任务上的性能。BRAVE通过使用参数高效的微调技术,减少了模型训练时所需的参数数量,同时保持了紧凑的模型表示,这不仅提高了模型的效率,也增强了模型对不同类型输入的泛化能力。通过这种方式,BRAVE为构建更加健壮和高效的视觉-语言模型提供了新的可能性。

BRAVE如何通过结合多个视觉编码器的特征来扩展VLMs的视觉能力。左侧部分通过示例图片展示了现有方法(如InstructBLIP和LLaVA-1.5)与BRAVE的区别。右侧部分展示了BRAVE在多个任务上达到的最新性能水平

不同视觉编码器对视觉-语言任务性能的影响

先来看看视觉-语言模型(VLM)的基本架构。在VLM中,一个冻结的视觉编码器与一个冻结的语言模型通过一个带有可训练参数的桥接网络连接。这个桥接网络通常采用特定的模块(例如Q-Former),它能够将视觉特征重新采样到固定长度的输出,然后将其输入到语言模型中。

作者评估的8种不同视觉编码器的详细信息,包括它们的参数量、训练数据和目标。

具有不同偏好的视觉编码器,例如CLIP、OpenCLIP、EVA-CLIP等。这些编码器虽然都使用基于Vision Transformer(ViT)的骨干网络,但在训练数据、训练目标和模型大小方面存在差异。这些差异导致每个编码器具有不同的视觉偏好,可能捕获场景的不同方面。

对于预训练数据和目标对VLM性能的影响研究者们使用WebLI数据集对Q-Former进行预训练,并使用WebLI中的alt-text作为目标进行训练。在标准的图像描述和VQA任务上评估了得到的VLMs。他们使用了COCO图像描述基准,并在Karpathy训练集上进行了微调。对于VQA任务,他们遵循标准实践,并在VQAv2和OKVQA的数据集上进行了微调。

不同视觉编码器在COCO图像描述、VQAv2、OKVQA、GQA和MMVP等任务上的性能比较

在不同视觉编码器下的VLMs性能如下:

  • 不同编码器的偏好可以导致相似的性能水平,表明没有单一编码器在所有任务中始终保持最佳性能。
  • 在MMVP基准测试中,大多数编码器的性能都低于随机猜测的准确率,表明这对所有编码器来说仍然是一个挑战。
  • 在需要组合推理和开放世界知识的任务上,VLMs的性能有所下降,性能差距也随之缩小。
  • 通过增加视觉编码器的大小可以提高性能,这在ViT-e的性能提升中得到了体现。
  • 预训练数据的分布对VLM性能有重要影响,例如OpenCLIP-G/14模型虽然比CLIP-L/14模型大,但在大多数评估的VQA和图像描述任务中表现不佳,这表明训练目标和数据集对VLM性能都有重要影响。

如何通过BRAVE方法有效地结合多个视觉编码器,以增强视觉-语言模型(VLMs)的性能和鲁棒性

尽管现有的VLMs在多种视觉-语言任务上取得了进展,但它们仍然受限于单一视觉编码器的能力。为了解决这个问题,BRAVE提出了一种新颖的方法,通过结合多个具有不同视觉偏好的视觉编码器,来拓宽模型的视觉编码能力。这种方法的动机是,不同的编码器可以捕获图像的不同方面,通过整合这些编码器,模型能够获得更全面的图像理解。

BRAVE框架的架构,特别是多编码器查询变换器(MEQ-Former)如何接受文本提示和可学习查询作为输入,并与不同视觉编码器的特征进行交叉注意

在BRAVE架构中,图2展示了一个创新的系统设计,旨在通过结合多个视觉编码器(VEs)和语言模型(LM)来增强视觉-语言模型的能力。在左侧的描述中,我们看到所有的视觉编码器和语言模型在预训练后都被冻结,即它们的参数不再更新。这是为了保持模型的稳定性,并减少进一步训练所需的计算资源。通过使用线性投影层,系统能够将来自K个不同VEs的特征序列化并串联起来,例如K=5,系统同时考虑五个编码器的输出。

紧接着,MEQ-Former(多编码器查询变换器)发挥了关键作用。它接受一组可学习的查询和描述任务的文本提示作为输入,并通过交叉注意力机制对串联的特征进行有效重采样,生成固定长度的输出。这一步骤至关重要,因为它能够整合多样化的视觉信息,并将其转化为对语言模型有用的形式。

在右侧的描述中,MEQ-Former的详细架构被展示出来,它包含N=12个变换器层。这些层与串联的视觉特征进行交云注意力交互,产生一个固定长度的输出,这个输出随后被用作软视觉提示,输入到冻结的语言模型中。这种设计不仅提高了模型处理视觉信息的能力,而且还保持了参数的高效性,因为BRAVE的可训练参数总数仅为116M,大约是模型总参数量的1%。

BRAVE的核心是多编码器查询变换器(MEQ-Former),这是一个轻量级的变换器模块,它能够接受来自不同视觉编码器的特征,并将其整合成一个固定长度的视觉表示。MEQ-Former通过交叉注意力机制与输入的文本提示以及可学习的查询向量相互作用,有效地重采样和整合视觉特征。

在预训练阶段,研究者们只训练MEQ-Former的参数,而保持所有视觉编码器和语言模型冻结。这种策略显著减少了预训练所需的可训练参数数量。在微调阶段,MEQ-Former可以根据下游任务的需要进行微调,以进一步提高模型的性能。BRAVE不仅可以应用于现有的视觉编码器,还可以轻松地整合新的编码器,以适应不断变化的视觉-语言任务需求。BRAVE的设计允许它在未来的研究中进一步扩展,例如结合更多模态的信息或处理多帧输入。

实验

研究者们使用了包括COCO图像描述和多个VQA数据集在内的标准基准测试,以及针对视觉幻觉和长尾视觉概念的鲁棒性测试。

用于评估VLMs的不同任务,包括图像描述和视觉问题回答(VQA)任务

在性能评估部分,研究者们展示了BRAVE在图像描述和VQA任务上的结果。他们将BRAVE与其他最先进的方法进行了比较,包括单一视觉编码器的方法和一些集成方法。结果表明,BRAVE在多个任务上都取得了显著的性能提升,证明了其在视觉-语言任务上的优越性。

BRAVE与不同视觉编码器在MMVP基准测试中的预测结果对比,突出了BRAVE在处理具有语义差异的图像对时的一致性和鲁棒性

为了测试BRAVE的鲁棒性,研究者们在POPE和MMVP等具有挑战性的数据集上进行了评估。这些数据集旨在测试模型对于视觉幻觉和难以区分的图像对的处理能力。BRAVE在这些测试中表现出了良好的鲁棒性,即使在面对困难的样本时也能保持较高的准确率。

在消融研究中,研究者们通过一系列的实验来分析不同组件对BRAVE性能的贡献。他们探讨了不同视觉编码器的组合、MEQ-Former的不同变体、以及预训练数据集大小对模型性能的影响。这些实验结果帮助研究者们理解了BRAVE的关键优势,并为进一步优化提供了方向。

对BRAVE不同设计选择的消融研究结果,包括语言模型微调、合成VQA数据的使用、编码器dropout等对性能的影响

基于BRAVE的实验结果,讨论其在视觉-语言任务中的潜力和应用前景,同时提出未来可能的研究方向,如自适应机制、提高样本效率、扩展视觉编码器的种类等。

通过一系列实验和性能评估,验证了BRAVE在参数效率和模型扩展性方面的优势。BRAVE不仅在COCO图像描述和多个VQA数据集上取得了优于现有最先进方法的结果,还在面对视觉幻觉和长尾视觉概念时展现出了卓越的鲁棒性。

BRAVE的提出,为视觉-语言模型的研究和应用开辟了新的可能性。它不仅提高了模型的性能,还通过减少训练参数和提高泛化能力,为解决实际问题提供了更为实用的工具。随着人工智能技术的不断进步,期待BRAVE能够在更广泛的领域中发挥作用,推动视觉-语言研究的进一步发展。

论文链接:https://arxiv.org/abs/2404.07204

项目地址:https://brave-vlms.epfl.ch/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/28887.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

车企高管组团“出道”,汽车营销已经Next level了?

汽车进入了“卷”老板、“卷”高管的时代! 谁能想到,雷军凭一己之力,在一定程度上重塑了汽车的竞争策略。价格战之外,车市又开启了流量之战。 云略曾在《雷军20天吸粉500w!……》一文中,提到继雷军之后&…

爆肝整理AI Agent:在企业应用中的6种基础类型

AI Agent智能体在企业应用中落地的价值、场景、成熟度做了分析,并且探讨了未来企业IT基础设施与架构如何为未来Gen AI(生成式AI)做好准备。在这样的架构中,我们把最终体现上层应用能力的AI Agent从不同的技术要求与原理上分成了几…

【MySQL】分库分表

https://www.bilibili.com/video/BV1Kr4y1i7ru/?p163​ https://blog.csdn.net/qq_47959003/article/details/126058710 随着互联网及移动互联网的发展,应用系统的数据量也是成指数式增长,若采用单数据库进行数据存储,存在以下性能瓶颈&…

Java项目:基于SSM框架实现的汽车养护保养管理系统【ssm+B/S架构+源码+数据库+开题+毕业论文+任务书】

一、项目简介 本项目是一套基于SSM框架实现的汽车养护保养管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、…

宋街宣传活动-循环利用,绿色生活

善于善行回收团队是一支致力于推动环保事业,积极倡导和实践绿色生活的志愿者队伍。我们的宗旨是通过回收再利用,减少资源浪费,降低环境污染,同时提高公众的环保意识,共同构建美丽和谐的家园。 善于善行志愿团队于2024年…

C语言数据存储大小端问题

大小端 什么是大小端 大端模式(Big-endian),是指数据的高字节,保存在内存的低地址中,而数据的低字节,保存在内存的高地址中; 小端模式(Little-endian),是指数据的高字…

函数递归

哈喽啊各位,真是,好久好久好久不见。这段时间实在是太过忙碌了昂,还望诸君见谅,接下来时间会松很多,咱们也会恢复正常更新速度啦 小希在这里祝诸君:期末不挂科,四六级都过!功不唐捐…

解密:不用import,Python编程将遭遇什么?

在Python中,import 语句用于导入其他模块或库,如果不使用 import,会导致以下问题: 无法使用外部库或模块: Python标准库以及第三方库提供了丰富的功能和工具,如果不导入这些库,就无法使用它们提供的功能。 代码可读性降低: import 语句可…

新质生产力水平测算与中国经济增长新动能(dta数据及do代码)

时间跨度:2012-2022年 数据范围:全国30个省份(不含港澳台、西藏) 数据指标: 参考韩文龙等的做法,收集了全部控制变量与稳定性检验所需变量。 类型 符号 变量 变量定义 被解释变量 GDP 各省人均GDP…

螺丝工厂vtk ThreadFactory(1)

螺丝工厂vtkThreadFactory (1) 缘起 几年前的探索在Python里应用Openscad实现3D建模之3D螺纹建模初探3 新的参考: generating nice threads in openscadvtkRotationalExtrusionFilter 辅助AI: coze 笔记📒: openscad 代码分析 // 半径缩放函数,用…

llamaindex原理与应用简介(宏观理解)

llamaindex原理与应用简介(宏观理解) 文章目录 llamaindex原理与应用简介(宏观理解) 这是我认为对于 llamaindex 应用的场景概述讲的相对比较好的视频:llamaindex原理与应用简介

JPS(Jump Point Search)跳点搜索路径规划算法回顾

本篇文章主要回顾一下几年前学的JPS跳点搜索规划算法的相关内容,之前学的时候没有进行概括总结,现在补上 一、A*算法简单回顾 – 1、基本介绍和原理 A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是解决许多…

吴恩达2022机器学习专项课程C2W3:2.26 机器学习发展历程

目录 开发机器学习系统的过程开发机器学习案例1.问题描述2.创建监督学习算法3.解决问题4.小结 误差分析1.概述2.误差分析解决之前的问题3.小结 增加数据1.简述2.增加数据案例一3.增加数据案例二4.添加数据的技巧5.空白创建数据6.小结 迁移学习1.简述2.为什么迁移学习有作用3.小…

Excel文件损坏怎么修复?这2个方法要学会

当你的excel文件不可读,或者出现提示“文件已经被损坏,无法打开”,这种情况时,会给我们正常的工作带来很多麻烦,文件损坏打不开怎么办?来看看这2招,详细的图文教程,小白也能轻松恢复…

MSPM0L1306——定时器

相关配置: #include "ti_msp_dl_config.h"int main(void) {SYSCFG_DL_init();//清除定时器中断标志NVIC_ClearPendingIRQ(TIMER_0_INST_INT_IRQN);//使能定时器中断NVIC_EnableIRQ(TIMER_0_INST_INT_IRQN);while (1) { } }//定时器…

ubuntu访问windows共享文件夹

方法: Ubuntu访问Windows共享文件夹的方法-CSDN博客 基于交换机的PC端网络通信_服务器交换机pc端-CSDN博客 补充说明: 在这里面输入: smb://192.168.0.30/WindowsShareToLinux

人脸识别系统---年龄预测

一、预测年龄 1.加载预训练的人脸检测模型 face_cascade cv2.CascadeClassifier(haarcascade_frontalface_default.xml)2.加载预训练的性别和年龄识别模型 gender_net cv2.dnn.readNetFromCaffe(deploy_gender.prototxt, gender_net.caffemodel) age_net cv2.dnn.readNet…

了解并解决 Flutter 中的灰屏问题

生产中的 flutter 应用程序中的灰屏是一种通用占位符,当框架遇到问题无法渲染预期用户界面时就会显示。是的,所以基本上是出现问题时的后备指示器。 有趣的是,这只出现在发布模式下。在任何其他模式下运行都会显示红色错误屏幕,并…

Trying to access array offset on value of type null

主要原因是版本7.4以后PHP解析器会对null类型的下标访问直接报错 背景: laravel框架 同时使用了扩展A和扩展B 扩展A要求 php>7.4,同时扩展B的对null类型的下标访问不兼容php7.4 修改扩展B不太现实,毕竟扩展B中有太多的对null类型的下标访问。 解决…

忘记word文档加密密码要如何破解word文档密码呢?

如今工作中已离不开各类办公软件,办公软件中Word几乎是天天被用到,为了保护数据,用户会为Word文档设置密码,但时间久了不记得密码了就非常麻烦。Word文档加密忘记密码怎样能打开?下面来看详细介绍吧! 一、使…