o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源LLaVA-o1一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地参与到总结、视觉解释、逻辑推理和结论生成的顺序阶段。

LLaVA-o1超过了一些更大甚至是闭源模型的性能,例如Gemini-1.5-proGPT-4o-miniLlama-3.2-90B-Vision-Instruct

图片

基础模型与LLaVA-o1的比较。基础模型Llama-3.2-11B-Vision-Instruct在推理过程中有明显的缺陷,整个推理过程中出现了几个错误。相比之下,LLaVA-o1首先概述问题,从图像中解释相关信息然后进行逐步推理过程,并最终得出一个有充分支持的结论

图片

LLaVA-o1如何炼成

LLaVA-o1模型的结构化推理框架专门的数据集和训练方法,以及推理时的阶段性束搜索策略,来提高模型在复杂任务中的推理能力和扩展性。

  1. 结构化推理阶段:

    • 总结阶段(Summary Stage):LLaVA-o1在这一阶段提供对问题的高层次总结,概述它打算解决的问题的主要方面。

    • 图像描述阶段(Caption Stage):如果存在图像,LLaVA-o1提供与问题相关的图像元素的简洁概述,帮助理解多模态输入。

    • 推理阶段(Reasoning Stage):在初始总结的基础上,LLaVA-o1进行结构化、逻辑推理,得出初步答案。

    • 结论阶段(Conclusion Stage):在最后阶段,LLaVA-o1根据前面的推理综合答案。结论阶段的输出是直接提供给用户的响应,而前三个阶段是内部的“隐藏阶段”,代表LLaVA-o1的推理过程。

    • 四对特殊标签:<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>

  2. 数据准备和模型训练:

    • 由于现有的视觉问题回答(VQA)数据集缺乏训练LLaVA-o1所需的详细推理过程,研究者们编译了一个新的数据集LLaVA-o1-100k,整合了多个广泛使用的VQA数据集的样本。

    • 使用GPT-4o生成包括总结、图像描述、推理和结论的详细推理过程,并将这些编译成LLaVA-o1-100k数据集。

    • 选择了Llama-3.2-11B-Vision-Instruct模型作为基础模型,并使用LLaVA-o1-100k数据集进行全参数微调。

图片

  1. 有效的推理时扩展使用阶段性束搜索:

    • 训练完成后的目标是在推理期间进一步增强模型的推理能力。LLaVA-o1的输出设计为结构化,提供了理想的粒度,用于推理时扩展。

    • 采用阶段性束搜索方法,该方法在每个推理阶段生成多个候选结果,并选择最佳结果以继续生成过程。

    • 通过在每个阶段进行有效的验证,这种方法验证了结构化输出在提高推理时扩展中的有效性。

推理方法的示意图最佳选择法(Best-of-N search)生成N个完整的响应,并从中选择最好的一个;句子级束搜索(Sentence-level Beam Search)为每个句子生成多个候选项并选择最好的一个。相比之下,LLaVA-o1的阶段性束搜索(Stage-level Beam Search)为每个推理阶段(例如,总结、标题、推理和结论)生成候选项,并在每个阶段选择最佳选项。最佳选择法在粗略层面上操作,而句子级束搜索过于细致,而LLaVA-o1的方法实现了最佳平衡并取得了最佳性能。

图片

有无阶段性束搜索的LLaVA-o1性能比较。LLaVA-o1的阶段性束搜索在模型推理过程中有效地选择了更好的推理。

图片

实验数据

  • LLaVA-o1在多模态推理基准测试中相较于其基础模型Llama-3.2-11B-Vision-Instruct实现了8.9%的性能提升。

  • LLaVA-o1在各种基准测试中不仅超越了基础模型,还超过了一些更大甚至是闭源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

  • 结构化标签(structured tags)对于模型性能至关重要。去除这些标签后,模型性能显著下降,说明这些标签有助于推理过程并提高了模型性能。

图片

图片

https://arxiv.org/pdf/2411.10440LLaVA-o1: Let Vision Language Models Reason Step-by-Stephttps://github.com/PKU-YuanGroup/LLaVA-o1

来源 | PaperAgent

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

共建智能软件开发联合实验室,怿星科技助力东风柳汽加速智能化技术创新

11月14日&#xff0c;以“奋进70载&#xff0c;智创新纪元”为主题的2024东风柳汽第二届科技周在柳州盛大开幕&#xff0c;吸引了来自全国的汽车行业嘉宾、技术专家齐聚一堂&#xff0c;共襄盛举&#xff0c;一同探寻如何凭借 “新技术、新实力” 这一关键契机&#xff0c;为新…

Qt桌面应用开发 第四天(对话框 界面布局)

目录 1.对话框 1.1模拟对话框 1.2非模拟对话框 1.3消息对话框 1.3.1询问对话框 1.3.2严重错误对话框 1.3.3信息提示对话框 1.3.4警告对话框 1.4其他对话框 1.4.1颜色对话框 1.4.2文件对话框 1.4.3字体对话框 1.5界面布局 1.对话框 1.1模拟对话框 会阻塞同一应用…

一文带你快速初步了解云计算与大数据

目录 &#x1f50d;一、云计算基础 1、云计算的概念、特点、关键技术 2、云计算的分类 3、云计算的部署模式 4、云计算的服务模式&#xff1a;IaaS、PaaS、SaaS分别是什么&#xff0c;具体含义要清楚 5、物联网的概念 6、物联网和云计算、大数据的关系 7、了解云计算的…

【新人系列】Python 入门(十一):控制结构

✍ 个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 专栏地址&#xff1a;https://blog.csdn.net/newin2020/category_12801353.html &#x1f4e3; 专栏定位&#xff1a;为 0 基础刚入门 Python 的小伙伴提供详细的讲解&#xff0c;也欢迎大佬们…

VideoCrafter模型部署教程

一、介绍 VideoCrafter是一个功能强大的AI视频编辑和生成工具&#xff0c;它结合了深度学习和机器学习技术&#xff0c;为用户提供了便捷的视频制作和编辑体验。 系统&#xff1a;Ubuntu22.04系统&#xff0c;显卡&#xff1a;4090&#xff0c;显存&#xff1a;24G 二、基础…

机器翻译基础与模型 之二: 基于CNN的模型

一、CNN网络 相比于全连接网络&#xff0c;卷积神经网络最大的特点在于具有局部连接&#xff08;Locally Connected&#xff09;和权值共享&#xff08;Weight Sharing&#xff09;的特性。 1.1 卷积核与卷积操作 1.2 步长与填充 1.3 池化 以上关于CNN的基础概念和技术就不…

Vue 3集成海康Web插件实现视频监控

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;组件封装篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来组件封装篇专栏内容:Vue 3集成海康Web插件实现视频监控 引言 最近在项目中使用了 Vue 3 结合海康Web插件来实…

【Maven】nexus 配置私有仓库配置【转】

介绍&#xff1a;【Maven】Nexus几个仓库的介绍-CSDN博客 一、仓库类型 proxy 远程仓库的代理&#xff0c;比如说nexus配置了一个central repository的proxy,当用户向这个proxy请求一个artifact的时候&#xff0c;会现在本地查找&#xff0c;如果找不到&#xff0c;则会从远程…

Python学习------第十天

数据容器-----元组 定义格式&#xff0c;特点&#xff0c;相关操作 元组一旦定义&#xff0c;就无法修改 元组内只有一个数据&#xff0c;后面必须加逗号 """ #元组 (1,"hello",True) #定义元组 t1 (1,"hello") t2 () t3 tuple() prin…

Spring Web入门练习

加法计算器 约定前后端交互接⼝ 约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API&#xff08;Application Programming Interface), 我们⼀般讲到接⼝或者 API&#xff0c;指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…

uniapp微信小程序接入airkiss插件进行WIFI配网

本文可参考uniapp小程序插件 一.申请插件 微信公众平台设置页链接&#xff1a;微信公众平台 登录您的小程序微信公众平台&#xff0c;进入设置页&#xff0c;在第三方设置->插件管理->添加插件中申请AiThinkerAirkissforWXMini插件&#xff0c;申请的插件appId为【wx6…

蓝队技能-应急响应篇日志自动采集日志自动查看日志自动化分析Web安全内网攻防工具项目

知识点&#xff1a; 1、应急响应-系统日志收集-项目工具 2、应急响应-系统日志查看-项目工具 3、应急响应-日志自动分析-项目工具 演示案例-蓝队技能-工具项目-自动日志采集&自动日志查看&自动日志分析 系统日志自动采集-观星应急工具(Windows系统日志) SglabIr_Co…

类和对象——static 成员,匿名对象(C++)

1.static成员 a&#xff09;⽤static修饰的成员变量&#xff0c;称之为静态成员变量&#xff0c;静态成员变量⼀定要在类外进行初始化。 b&#xff09;静态成员变量为所有类对象所共享&#xff0c;不属于某个具体的对象&#xff0c;不存在对象中&#xff0c;存放在静态区。 …

node.js中express的基本了解

定义 Express是基于Node.js平台&#xff0c;快速、开放、极简的Web开发框架。 本质 Express是一个npm上的第三方包&#xff0c;提供了快速创建Web服务器的便捷方法。 作用 与Node.js内置的http模块类似&#xff0c;Express也是专门用来创建Web服务器的&#xff0c;但它极大地简…

Django实现智能问答助手-基础配置

设置 Django 项目、创建应用、定义模型和视图、实现问答逻辑&#xff0c;并设计用户界面。下面是一步一步的简要说明&#xff1a; 目录&#xff1a; QnAAssistant/ # 项目目录 │ ├── QnAAssistant/ # 项目文件夹 │ ├── init.py # 空文件 │ ├── settings.py # 项目配…

Spring工作流程

&#xff08;3&#xff09;案例工作流程 启动服务器初始化过程 1.服务器启动&#xff0c;执行ServletContainersInitConfig类&#xff0c;初始化web容器功能类似于以前的web.xml 2.执行createServletApplicationContext方法&#xff0c;创建了WebApplicationContext对象 该方法…

C语言第13节:指针(3)

1. 回调函数 回调函数的基本思想是&#xff0c;将函数指针作为参数传递给另一个函数&#xff0c;并在需要时通过这个函数指针调用对应的函数。这种方式允许一个函数对执行的内容进行控制&#xff0c;而不需要知道具体的实现细节。 回调函数在以下场景中尤为有用&#xff1a; …

用pyspark把kafka主题数据经过etl导入另一个主题中的有关报错

首先看一下我们的示例代码 import os from pyspark.sql import SparkSession import pyspark.sql.functions as F """ ------------------------------------------Description : TODO&#xff1a;SourceFile : etl_stream_kafkaAuthor : zxxDate : 2024/11/…

STM32芯片EXIT外部中断的配置与原理以及模板代码(标准库)

配置EXIT外部中断其实就是把GPIO刀NVIC的各个外设配置好 第一步&#xff1a;配置RCC&#xff0c;把我们涉及到的外设的时钟都打开 &#xff08;此处EXTI是默认打开的&#xff0c;而NVIC是内核外设无需配置&#xff09; 第二步&#xff1a;配置GPIO,选择端口为输入模式 第三…

misc设备驱动

MISC 理解 简化创建设备号&#xff0c;cdev&#xff0c;class&#xff0c;device 的步骤。 设备树 代码 模块初始化和退出 平台下驱动匹配和移除 MiSC 结构体 文件描述符的处理函数 其他