多模态论文阅读--V*指导视觉搜索成为多模态大语言模型的核心机制

V*:Guided Visual Search as a Core Mechanism in Multimodal LLMs

  • 摘要
  • Introduction
  • Related Work
    • Computational Models for Visual Search
    • 多模态模型
  • Method
    • VQA LLM with Visual Working Memory
      • Model Structure
      • Data Curation for VQA LLM
    • V*:LLM-guided Visual Search
      • Problem Formulation
      • Model Structure
      • Search Algorithm
  • Benchmark
  • Experiments
    • Evaluation on V* Bench
    • Ablation study
    • Visual Search Evaluation
    • General Multimodal Benchmarks Evaluation
  • Conclusion

摘要

当我们环顾四周并且执行复杂任务时,我们如何看以及挑选看什么的过程是非常重要的。然而,当前的多模态大语言模型(MLLMs)缺乏这种视觉搜索机制,妨碍了它们关注重要特征的能力,尤其是处理高分辨率和视觉拥挤的图像时。为了解决这个问题,我们介绍了V*,一个LLM-guided 的视觉搜索机制,用LLMs中的世界知识有效的视觉索引(visual quering)。当和一个MLLM结合时,这个机制增强了合作推理(collaborative reasoning),上下文理解和特定视觉元素的精确定位。这个机制导致了一个新的MLLM meta-architecture,被命名为Show,sEarch,and TelL(SEAL)。我们进一步创建了V*Bench,一个专门设计用于评估MLLMs在处理高分辨率图像和关注于视觉细节的能力的benchmark。我们的研究突出了将视觉搜索能力整合到多模态系统中的必要性。

Introduction

人类智能的一个特点在于能够处理和整和多感知信息来处理复杂任务。涉及视觉信息的认知推理过程的一个突出方面是进行视觉搜索的能力–在错综纷杂的真实世界场景中,有效识别和定位重要目标的过程。这种机制在与环境的互动中起着基本的作用,并且无处不在,从在杂乱(cluttered)的桌面上找到钥匙到在人群中找到一个朋友。而且,是需要多步推理的复杂任务的不可或缺的一部分。这种错综复杂的视觉搜索已经在认知科学和视觉科学中被研究了很长时间。

虽然视觉搜索对人类来说似乎是直观的,但它实际上是一个由一系列复杂行为支撑(underpinned)的复杂过程。为了有效的完成这个任务,至上而下的特征指导(top-down feature guidance)和上下文场景指导(contextual scene guidance)是指导人类视觉搜索过程的两个基础因素。top-down feature guidance基于目标对象的特殊性和关于其一般类别的认识,知识将人们的注意力引导到具有特别特征和属性(如:颜色,形状和方位)的items上。
Contextual scene guidance 是基于在真实场景中objects通常在结构化场景中well-organized这一事实。因此,一旦使用基于常识的场景语义(semantics of the scene),object co-occurrence和其他物理限制来专注于特别的区域,将加速搜索过程。

作为一个实现人工通用智能的重要步骤,MLLMs尝试与模拟人类在整合多模态信息以及在通用任务上执行的能力。利用大型语言模型的强大推理能力,使得这一领域已经取得了重大进展。然而,如今MLLMs的一个关键限制在于,它们依赖于pre-trained(and often frozen) vision encoders。例如:CLIP image encoder。 这种依赖形成了视觉信息处理的主要瓶颈。The vision encoders 通常在低分辨率(low resolution)例如:224x224或336x336 pixels上训练。在部署时,图片通常被resized到一个lower resolution。导致,encoder可能会忽略在高分辨(high-resolution)上的一些重要细节。此外,目前的MLLMs很难识别它们处理的图像中哪些重要的视觉细节被忽略了或者unclear,更别说能够主动(proactively)的寻找或者request这种缺少的信息。

受人类能力的启发,我们提出了SEAL,一个通用的整合LLM-guided 视觉搜索机制到MLLMs来解决上述提到的视觉limitations的meta-architecture。SEAL框架由VQA LLM和一个视觉搜索模型(visual search model)组成。不像典型的MLLMs可能会拒绝回答或者做出毫无根据的猜测(make uninformaed guesses)(例如:假设(hallucinations))造成vision encoder的信息不足这样,SEAL中的VQA LLM能够直接指明被忽略的visual details,因此从而为焦点创建目标对象(target objects)。然后,利用语言模型中丰富的世界知识和常识,visual search model定位这些已标识的元素,将它们添加到视觉工作记忆(Visual Working Memory,VWM)中。VWM中这种额外的视觉数据能够使得VQA 语言模型能够提供更精确和有根据的(informed)回答。SEAL自适应的让VMW可以和各种MLLM base models一起工作。在我们的案例中,我们使用LLaVA作为visual search model下的VQA LLM和MLLM。 有了这种visual search 能力,MLLM能够更好地处理高分辨率图像中需要精确视觉grounding的情况,正如我们的比较中所强调的那样。

由于人类的视觉搜索过程是由至上而下的特征指导(top-down feature guidance)和上下文场景指导(contextual scene guidance)引导的,我们设计了一个有根据的视觉搜索算法,称为V *,其视觉搜索模型遵循类似的原则。对于人类来说,这样的指导很大程度上来自于他们对物理世界的知识和经验。因此我们的visual search model建立在另一个MLLM之上,该MLLM包含大量关于世界的常识,并可以根据这些知识有效地推断出目标在场景中的可能位置。

现有的MLLMbaseline主要侧重于提供跨各种任务类别的综合评估,并且没有充分挑战或暴露上述当前范例的具体限制。为了弥合这一差距并评估我们提出的框架,我们引入了V * Bench,这是一个新的专用VQA baseline,专注于高分辨率图像的详细视觉grounding。V* Bench是一个以视觉为中心的基准测试,要求多模态模型精确地获取特定的视觉信息,这些信息很容易被缺乏视觉搜索功能的标准静态视觉编码器忽略。在图像和视频等丰富而复杂的视觉内容日益占主导地位的世界中,对于MLLMs来说,能够积极关注复杂推理任务的关键视觉信息至关重要。该基准旨在突出这一基本机制的重要性,并指导其演变多模态逻辑模型反映了人类认知中固有的多模态处理和推理能力。

总之,我们的贡献有三个方面:1)我们提出了SEAL,一个MLLM元架构,旨在积极地推理和搜索所需的视觉信息,这是视觉密集型多模式任务的重要能力,特别是在处理高分辨率图像时。2)我们开发了一种视觉搜索算法V *,它利用llm固有的常识理解,在任何分辨率的图像上执行有效的有根据的搜索。3)我们引入了V * Bench来全面评估mllm在高分辨率图像中精确处理和建立详细视觉信息的能力。

Related Work

Computational Models for Visual Search

受人类视觉搜索过程中引导因素的启发,人们提出了几种模拟人类视觉搜索过程的计算模型。
Sclar等人[41]提出了一种与显著性图相结合的贝叶斯搜索器。Torralba等[46]将局部显著性图与全局场景先验相结合,形成场景调制显著性图。IVSN[59]使用卷积网络计算搜索图像与目标模板之间的相似度映射,并贪婪地进行搜索。Yang等[55]使用逆强化学习(IRL)学习人类视觉搜索的奖励函数和策略。

然而,这些模型主要集中在模仿人类的凝视轨迹,不需要精确定位目标物体。并且它们通常采用固定大小的凝视(gazing)窗口,然而我们的视觉搜索模型,在以一个分层的过程处理任何分辨率的图像。此外,它们对目标对象的分类信息和上下文场景信息的使用仅限于简单的统计,而不能推广到一般领域。我们的视觉搜索模型利用LLM的常识知识来加快搜索过程。我们注意到我们的主动搜索策略与System II的认知过程相关联[16]——对于复杂的任务,动态的视觉搜索计算分配是必要的。我们的方法也可以被认为是LLM使用的思维链(CoT)技术的视觉对应物。

多模态模型

在大型语言模型成功的推动下,视觉语言模型的研究开始探索如何装备LLM具有额外的视觉输入来解决各种多模态任务。目前,MLLMs可以分为两种类型:端到端模型和使用LLM工具的系统(LLM tool-using systems)。

  • End-to-end MLLMs.端到端MLLMs通过投影(projection)或对齐模块将预训练好的LLM与视觉编码器连接起来,整个系统以端到端的方式进行联合训练。这些模型的目的是将视觉特征投射到语言输入embedding 空间上或中间特征空间,使LLM能够处理视觉信息并执行视觉语言任务。而视觉编码器就像CLIP通过图像-文本对齐进行预训练,可以将视觉特征翻译成llm可以理解的“language tokens”形式,这一过程引入了信息瓶颈。由于视觉编码器通常限于低分辨率图像,因此视觉特征的转换和投影通常会导致固有的信息丢失。因此,如果关键的视觉信息被捕捉得很差或不够集中,这些模型可能很难提供准确的结果,或者可能产生假设(hallucinated)的答案。
  • LLM-tool-using systems.LLM-tool-using systems或基于LLM的代理将LLM视为一个黑盒子,并允许它们访问一些视觉专家系统,通过推理来执行某些视觉语言任务。这样的系统利用不同种类的视觉专家**以文本的形式提供有关视觉输入的所需信息。**他们通常采用caption和detect模型来创建图像的一般文本信息,然后提供给LLM。根据图像的描述和特定的问题或任务指令,LLM进一步通过推理来决定需要哪些视觉信息和呼叫哪些视觉专家。当LLM认为信息足够时,决定终止流程并提供最终答案。然而,这种系统的一个主要问题是,由于整个系统仅基于文本运行,某些视觉信息在翻译成文本时不可避免地会被忽略或扭曲。此外,由于视觉专家本身并不完美,存在串联(cascaded)错误,过程复杂而漫长,使得整个系统容易出现故障。

Method

我们提出的SEAL是一个通用的MLLMs元结构。它由一个VQA LLM和一个视觉搜索模型组成,通过视觉工作记忆(VWM)进行协作和交互。SEAL框架的图示如图3所示。在这项工作中,我们提供了SEAL的实例来验证其有效性,并选择了LLaVA-7B模型作为实例SEAL框架中的MLLM。

VQA LLM with Visual Working Memory

Model Structure

现代MLLMs通常有三个组成部分:视觉编码器、投影模块和LLM。投影模块的类型在不同的模型中有所不同。包括Resampler, QFormer 以及Linear layer。在不同的模型中,投影视觉标记在LLM中的位置也不同,例如在输入层或中间的交叉注意层。尽管存在这些差异,但大多数模型都采用预训练的CLIP作为视觉编码器。当处理高分辨率和视觉拥挤的图像时,CLIP提取的视觉特征可能无法捕获回答问题所需的必要信息。

视觉搜索机制并不总是参与其中。模型首先评估编码器的初始(全局)视觉特征是否足以回答问题。 如果没有,则以目标对象列表的格式显式列出所有必需但缺失的信息。然后,它初始化一个视觉工作记忆(VWM)。VWM有四个模块,块包含初始文本问题;包含初始图像;存储搜索后的目标对象集合;而存储搜索目标的坐标。 接下来,视觉搜索模型搜索图像并定位每个需要的目标。 然后从整个图像中裁剪出包含已识别目标的区域。裁剪后的目标及其坐标被添加到VWM中。之后,VQA LLM处理VWM中包含的数据以生成相应的响应。SEAL框架的工作流程在算法1中进行了说明。

Data Curation for VQA LLM

V*:LLM-guided Visual Search

Problem Formulation

Model Structure

Search Algorithm

Benchmark

Experiments

Evaluation on V* Bench

Ablation study

Visual Search Evaluation

General Multimodal Benchmarks Evaluation

Conclusion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/708144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络-网络互连和互联网(四)

1.TCP协议: 传输控制协议,面向字节流按顺序连接,可靠,全双工,可变滑动窗口,缓冲累积传送。协议号为6。下面是TCP段(段头),TCP头(传输头)&#xf…

【重要公告】BSV区块链协会全新推出“网络访问规则NAR”

​​发表时间:2024年2月15日 BSV区块链协会正式宣布已为BSV区块链推出一套全新的网络访问规则(Network Access Rules,以下简称“NAR”)。 NAR是一整套规则,用于规范BSV协会与BSV网络节点之间的关系。它基于比特币最初…

【LeetCode】每日一题:使二叉树所有路径值相等的最小代价

该题采用自底向上的思路的话,很容易想到使用贪心的思想,但是如何进行具体操作却有些难度。 这里补充一个重要的结论:二叉树的数组形式中,第i个节点的父节点是i/2;接下来只需要让自底向上让每个路径上的代价保持最低限…

为什么会造成服务器丢包?

随着云服务器市场的发展和网络安全问题,服务器丢包问题成为了一个普遍存在的现象。服务器丢包是指在网络传输过程中,数据包由于各种原因未能到达目标服务器,导致数据传输中断或延迟。那么,为什么会造成服务器丢包呢?下…

2024年2月深度学习的论文推荐

我们这篇文章将推荐2月份发布的10篇深度学习的论文 Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping. https://arxiv.org/abs/2402.14083 Searchformer是一个基于Transformer架构的人工智能模型,经过训练可以模拟A星寻路算法&a…

【Java编程进阶之路 06】深入探索:JDK、JRE与JVM的关系与差异

JDK、JRE与JVM:揭开Java运行环境的神秘面纱 在Java开发者的日常工作中,JDK、JRE和JVM这三个概念是不可或缺的。它们构成了Java应用程序的运行环境,但很多初学者可能对这三者的关系和差异感到困惑。本文旨在详细解析JDK、JRE和JVM之间的关系&…

代码随想录算法刷题训练营day27:LeetCode(39)组合总和、LeetCode(40)组合总和 II、LeetCode(131)分割回文串

代码随想录算法刷题训练营day27:LeetCode(39)组合总和、LeetCode(40)组合总和 II、LeetCode(131)分割回文串 LeetCode(39)组合总和 题目 代码 import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.List;clas…

【论文笔记】Attention Is All You Need

【论文笔记】Attention Is All You Need 文章目录 【论文笔记】Attention Is All You NeedAbstract1 Introduction2 Background补充知识:软注意力 soft attention 和硬注意力 hard attention?补充知识:加法注意力机制和点乘注意力机制Extende…

计算机硬件 7.3测试优化升级

第三节 测试 优化 升级 一、测试 1.测试方法:考机法、仪器测试法、软件测试法。 2.测试软件:CPU—Z、GPU—Z、PCMark、Hwinfo、Super PI。 二、优化 1.分类:硬盘优化、操作系统优化。 2.硬盘优化 目的:提高读写速度、增大可用…

11.网络游戏逆向分析与漏洞攻防-游戏网络架构逆向分析-接管游戏接收网络数据包的操作

内容参考于:易道云信息技术研究院VIP课 上一个内容:接管游戏发送数据的操作 码云地址(master 分支):https://gitee.com/dye_your_fingers/titan 码云版本号:8256eb53e8c16281bc1a29cb8d26d352bb5bbf4c 代…

在Windows中安装PyTorch

文章目录 1. 创建虚拟环境2. 检查显卡版本和CUDA3. 下载链接4. 下载5. 等待6. 检测 1. 创建虚拟环境 具体查看我之前写的 《在Windows中利用Python的venv和virtualenv创建虚拟环境》 2. 检查显卡版本和CUDA 这种情况是需要电脑上有单独的英伟达的显卡、或者英伟达的显卡和集显…

NoSQL数据库介绍

目录 一、发展历史 二、什么是NoSQL? 三、为什么使用NoSQL? 四、NoSQL vs. RDBMS 五、NoSQL的四种类型 键值存储 文档存储 列式存储 图形存储 六、NoSQL的优缺点 七、NoSQL的特点 灵活的可扩展性 灵活的数据模型 与云计算紧密融合 大数据量…

【Java程序设计】【C00324】基于Springboot的高校疫情防控管理系统(有论文)

基于Springboot的高校疫情防控管理系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的高校疫情防控系统,本系统有管理员、学校管理员、学院管理员、教师以及学生五种角色; 管理员&#x…

2732: 【C2】【排序】钻石收集者

题目描述 总是喜欢亮闪闪的东西的奶牛Bessie空闲时有挖掘钻石的爱好。她收集了N颗不同大小的钻石并且她希望将其中一些钻石放在谷仓展览室的一个盒子里。由于Bessie希望盒子里面的钻石在大小上相对接近,,她不会将大小相差大于K的钻石放在盒子里。 现在…

MySQL 的数据库操作,利用Spring Boot实现MySQL数据库的自动创建

执行 show databases; 命令可以查看当前数据库的所有数据库。 注意在 MySQL 客户端执行 SQL 语句的时候要带上分号 ; 并按下 enter 键,不然 MySQL 会认为你还没有输入完,会换一行继续等待你输入。 OK,像上面截图中的 information_schema、mys…

3D Gaussian splatting 协方差矩阵 球谐函数 简单理解

3D Gaussian splatting 是一种图形和视觉处理技术,常用于体积渲染、点云渲染和其他应用中,以便对数据进行平滑或重建。在这个上下文中,高斯分布(或高斯“splat”)用于表示单个数据点(如一个点云中的点&…

leetcode 2.28

Leetcode hot100 动态规划1.最大子数组和2.不同路径3.最小路径和4. 爬楼梯5. 杨辉三角6.打家劫舍 动态规划 1.最大子数组和 最大子数组和 动态规划: 按照四个步骤求解: 1)确定状态:以n代表第n个元素为末尾的最大子序列和 最后一…

InnoDB高级特性篇(2)-InnoDB的日志系统详解

InnoDB是MySQL数据库中最常用的存储引擎之一,其强大之处在于其完善的日志系统。本文将详细介绍InnoDB的日志系统。 在数据库中,日志是一种记录数据库操作的机制,它可以帮助恢复数据、保证数据一致性以及提高系统性能。InnoDB的日志系统由多个…

第二周opencv

一、边缘检测算子 边缘检测算子是用于检测图像中物体边界的工具。边缘通常表示图像中灰度值或颜色发生显著变化的地方。边缘检测有助于识别图像中的物体形状、轮廓和结构。这些算子通过分析图像的灰度或颜色梯度来确定图像中的边缘。 1、Roberts 算子 通过局部差分计算检测边缘…

(PWM呼吸灯)合泰开发板HT66F2390-----点灯大师

前言 上一篇文章相信大家已经成为了点灯高手了,那么进阶就是成为点灯大师 实现PWM呼吸灯 接下来就是直接的代码讲解了,不再讲PWM原理的 这里部分内容参考了另一个博主的文章 合泰杯——合泰单片机工程7之PWM输出 如果有小伙伴不理解引脚设置和delay函数…