o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源LLaVA-o1一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地参与到总结、视觉解释、逻辑推理和结论生成的顺序阶段。

LLaVA-o1超过了一些更大甚至是闭源模型的性能,例如Gemini-1.5-proGPT-4o-miniLlama-3.2-90B-Vision-Instruct

图片

基础模型与LLaVA-o1的比较。基础模型Llama-3.2-11B-Vision-Instruct在推理过程中有明显的缺陷,整个推理过程中出现了几个错误。相比之下,LLaVA-o1首先概述问题,从图像中解释相关信息然后进行逐步推理过程,并最终得出一个有充分支持的结论

图片

LLaVA-o1如何炼成

LLaVA-o1模型的结构化推理框架专门的数据集和训练方法,以及推理时的阶段性束搜索策略,来提高模型在复杂任务中的推理能力和扩展性。

  1. 结构化推理阶段:

    • 总结阶段(Summary Stage):LLaVA-o1在这一阶段提供对问题的高层次总结,概述它打算解决的问题的主要方面。

    • 图像描述阶段(Caption Stage):如果存在图像,LLaVA-o1提供与问题相关的图像元素的简洁概述,帮助理解多模态输入。

    • 推理阶段(Reasoning Stage):在初始总结的基础上,LLaVA-o1进行结构化、逻辑推理,得出初步答案。

    • 结论阶段(Conclusion Stage):在最后阶段,LLaVA-o1根据前面的推理综合答案。结论阶段的输出是直接提供给用户的响应,而前三个阶段是内部的“隐藏阶段”,代表LLaVA-o1的推理过程。

    • 四对特殊标签:<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>

  2. 数据准备和模型训练:

    • 由于现有的视觉问题回答(VQA)数据集缺乏训练LLaVA-o1所需的详细推理过程,研究者们编译了一个新的数据集LLaVA-o1-100k,整合了多个广泛使用的VQA数据集的样本。

    • 使用GPT-4o生成包括总结、图像描述、推理和结论的详细推理过程,并将这些编译成LLaVA-o1-100k数据集。

    • 选择了Llama-3.2-11B-Vision-Instruct模型作为基础模型,并使用LLaVA-o1-100k数据集进行全参数微调。

图片

  1. 有效的推理时扩展使用阶段性束搜索:

    • 训练完成后的目标是在推理期间进一步增强模型的推理能力。LLaVA-o1的输出设计为结构化,提供了理想的粒度,用于推理时扩展。

    • 采用阶段性束搜索方法,该方法在每个推理阶段生成多个候选结果,并选择最佳结果以继续生成过程。

    • 通过在每个阶段进行有效的验证,这种方法验证了结构化输出在提高推理时扩展中的有效性。

推理方法的示意图最佳选择法(Best-of-N search)生成N个完整的响应,并从中选择最好的一个;句子级束搜索(Sentence-level Beam Search)为每个句子生成多个候选项并选择最好的一个。相比之下,LLaVA-o1的阶段性束搜索(Stage-level Beam Search)为每个推理阶段(例如,总结、标题、推理和结论)生成候选项,并在每个阶段选择最佳选项。最佳选择法在粗略层面上操作,而句子级束搜索过于细致,而LLaVA-o1的方法实现了最佳平衡并取得了最佳性能。

图片

有无阶段性束搜索的LLaVA-o1性能比较。LLaVA-o1的阶段性束搜索在模型推理过程中有效地选择了更好的推理。

图片

实验数据

  • LLaVA-o1在多模态推理基准测试中相较于其基础模型Llama-3.2-11B-Vision-Instruct实现了8.9%的性能提升。

  • LLaVA-o1在各种基准测试中不仅超越了基础模型,还超过了一些更大甚至是闭源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

  • 结构化标签(structured tags)对于模型性能至关重要。去除这些标签后,模型性能显著下降,说明这些标签有助于推理过程并提高了模型性能。

图片

图片

https://arxiv.org/pdf/2411.10440LLaVA-o1: Let Vision Language Models Reason Step-by-Stephttps://github.com/PKU-YuanGroup/LLaVA-o1

来源 | PaperAgent

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

共建智能软件开发联合实验室,怿星科技助力东风柳汽加速智能化技术创新

11月14日&#xff0c;以“奋进70载&#xff0c;智创新纪元”为主题的2024东风柳汽第二届科技周在柳州盛大开幕&#xff0c;吸引了来自全国的汽车行业嘉宾、技术专家齐聚一堂&#xff0c;共襄盛举&#xff0c;一同探寻如何凭借 “新技术、新实力” 这一关键契机&#xff0c;为新…

Django:从入门到精通

一、Django背景 Django是一个由Python编写的高级Web应用框架&#xff0c;以其简洁性、安全性和高效性而闻名。Django最初由Adrian Holovaty和Simon Willison于2003年开发&#xff0c;旨在简化Web应用的开发过程。作为一个开放源代码项目&#xff0c;Django迅速吸引了大量的开发…

解决.DS_Store 在项目一致无法排除,.gitignore里也不生效

.DS_Store 是 macOS 操作系统创建的隐藏文件&#xff0c;通常用于存储目录的属性&#xff0c;比如视图设置、图标位置等。它通常不应包含在代码仓库中&#xff0c;因此需要排除它。你提到即使将其添加到 .gitignore 文件中&#xff0c;仍然无法排除它&#xff0c;可能是由于以下…

Qt桌面应用开发 第四天(对话框 界面布局)

目录 1.对话框 1.1模拟对话框 1.2非模拟对话框 1.3消息对话框 1.3.1询问对话框 1.3.2严重错误对话框 1.3.3信息提示对话框 1.3.4警告对话框 1.4其他对话框 1.4.1颜色对话框 1.4.2文件对话框 1.4.3字体对话框 1.5界面布局 1.对话框 1.1模拟对话框 会阻塞同一应用…

一文带你快速初步了解云计算与大数据

目录 &#x1f50d;一、云计算基础 1、云计算的概念、特点、关键技术 2、云计算的分类 3、云计算的部署模式 4、云计算的服务模式&#xff1a;IaaS、PaaS、SaaS分别是什么&#xff0c;具体含义要清楚 5、物联网的概念 6、物联网和云计算、大数据的关系 7、了解云计算的…

PC上浏览器是如何查询DNS 缓存的?

通过 ipconfig /displaydns 的显示结果可以获取本机的 DNS 缓存信息&#xff0c;那么浏览器是如何获取本机的 DNS 缓存。 答案是&#xff1a;浏览器获取本机的 DNS 缓存主要是通过操作系统提供的接口来获取&#xff0c;。 具体的获取途径如下&#xff1a; 先查询自身缓存&am…

【新人系列】Python 入门(十一):控制结构

✍ 个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 专栏地址&#xff1a;https://blog.csdn.net/newin2020/category_12801353.html &#x1f4e3; 专栏定位&#xff1a;为 0 基础刚入门 Python 的小伙伴提供详细的讲解&#xff0c;也欢迎大佬们…

【CVPR2024】2024年CVPR的3D 目标检测的综述(还在补充中)

透视单目DETR 2D 透视单目DETR 2D的。对于DETR系列消除了 NMS的2D目标检测,RT-DETR[8]设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来提高速度。采用不确定性最小查询选择,为解码器提供高质量的初始查询,从而提高准确率。 透视单目3D 透视单目3D。MonoCD…

VideoCrafter模型部署教程

一、介绍 VideoCrafter是一个功能强大的AI视频编辑和生成工具&#xff0c;它结合了深度学习和机器学习技术&#xff0c;为用户提供了便捷的视频制作和编辑体验。 系统&#xff1a;Ubuntu22.04系统&#xff0c;显卡&#xff1a;4090&#xff0c;显存&#xff1a;24G 二、基础…

Python自动化测试实践中pytest用到的功能dependency和parametrize

Python自动化测试中pytest用到的功能 1、pytest之@pytest.mark.dependency装饰器设置测试用例之间的依赖关系 1.1说明: 1、这是一个pytest第三方插件,主要解决用例之间的依赖关系。如果依赖的上下文测试用例失败后续的用例会被标识为跳过执行,相当于执行了 pytest.mark.s…

Ubuntu Linux使用前准备动作 安装VMware Tools工具

Ubuntu Linux 能够安装开源的 VMware tools 工具&#xff0c;即 Open VM Tools。具体安装步骤如下 1&#xff09;打开终端&#xff1a;可以通过按下 Ctrl Alt T 组合键来打开终端。 2&#xff09;安装 Open-VM-Tools 软件包 在终端中输入以下命令来更新软件包列表并安装 O…

Harmony鸿蒙类似与Android中broadcast广播的api使用及释义

EventHub模块提供了事件中心&#xff0c;提供订阅、取消订阅、触发事件的能力。 这里需要注意&#xff0c;该模块接口仅可在Stage模型下使用。且Api>9 EventHub.on on(event: string, callback: Function): void; 订阅指定事件。&#xff08;接收广播&#xff09; 参…

机器翻译基础与模型 之二: 基于CNN的模型

一、CNN网络 相比于全连接网络&#xff0c;卷积神经网络最大的特点在于具有局部连接&#xff08;Locally Connected&#xff09;和权值共享&#xff08;Weight Sharing&#xff09;的特性。 1.1 卷积核与卷积操作 1.2 步长与填充 1.3 池化 以上关于CNN的基础概念和技术就不…

嵌入式Linux的RTC读写操作应用

嵌入式Linux的RTC读写操作应用 一、前提二、头文件引用三、设置RTC时间四、读取RTC当前时间 一、前提 嵌入式开发中经常有碰到读取和修改时间的需求&#xff0c;所以会经常用到RTC这个功能。首先保证你的开发板上具有RTC这个模块和支持RTC且能正常工作&#xff0c;然后再进行应…

Vue 3集成海康Web插件实现视频监控

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;组件封装篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来组件封装篇专栏内容:Vue 3集成海康Web插件实现视频监控 引言 最近在项目中使用了 Vue 3 结合海康Web插件来实…

最少前缀操作问题--感受不到动态规划,怎么办怎么办

题目&#xff1a; 标签&#xff1a;动态规划&#xff08;应该是双指针的&#xff0c;不理解&#xff09; 小U和小R有两个字符串&#xff0c;分别是S和T&#xff0c;现在小U需要通过对S进行若干次操作&#xff0c;使其变成T的一个前缀。操作可以是修改S的某一个字符&#xff0…

【Maven】nexus 配置私有仓库配置【转】

介绍&#xff1a;【Maven】Nexus几个仓库的介绍-CSDN博客 一、仓库类型 proxy 远程仓库的代理&#xff0c;比如说nexus配置了一个central repository的proxy,当用户向这个proxy请求一个artifact的时候&#xff0c;会现在本地查找&#xff0c;如果找不到&#xff0c;则会从远程…

Python学习------第十天

数据容器-----元组 定义格式&#xff0c;特点&#xff0c;相关操作 元组一旦定义&#xff0c;就无法修改 元组内只有一个数据&#xff0c;后面必须加逗号 """ #元组 (1,"hello",True) #定义元组 t1 (1,"hello") t2 () t3 tuple() prin…

Spring Web入门练习

加法计算器 约定前后端交互接⼝ 约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API&#xff08;Application Programming Interface), 我们⼀般讲到接⼝或者 API&#xff0c;指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…

uniapp微信小程序接入airkiss插件进行WIFI配网

本文可参考uniapp小程序插件 一.申请插件 微信公众平台设置页链接&#xff1a;微信公众平台 登录您的小程序微信公众平台&#xff0c;进入设置页&#xff0c;在第三方设置->插件管理->添加插件中申请AiThinkerAirkissforWXMini插件&#xff0c;申请的插件appId为【wx6…