Cambrian-1:探索以视觉为中心的多模态LLM新纪元

一、摘要

论文:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs,https://arxiv.org/abs/2406.16860
主页:https://cambrian-mllm.github.io/
代码:https://github.com/cambrian-mllm/cambrian

        本文研发团队谢赛宁与LeCun秉持的观念是视觉表征是MLLM能力的突破口,做好MLLM需要回归视觉,而不是一味的增强LLM。研究的直觉是,寒武纪时期生物靠着以视觉为核心的感知能力,完成了对周围环境的理解并在此基础上生存与进化了下来。并且直至现在也表明依然可以靠单纯的视觉对物理世界进行理解并做出高效准确的行为。包括李飞飞、何凯明等学者也是非常认可这样的直觉,所以现在视觉学者们正在号召并躬身进行相应的研发创新,相信不久的未来会有更多有影响力的工作出来。本文介绍了Cambrian-1,这是一组以视觉为中心的多模态大型语言模型(MLLMs)系列,旨在通过大型语言模型(LLMs)和视觉指令调整来评估不同的视觉表示,提供对模型和架构的新见解。Cambrian-1通过实验评估了20多种视觉编码器,并对现有的MLLM基准进行了批判性检查,提出了一个新的视觉中心基准CV-Bench,以改善视觉基础。该方法对比4月份港中文贾佳亚团队的Mini-Gemini: 探索多模态视觉语言模型的新境界又提升了不少性能。

二、算法贡献

a.)视觉编码观察

如上图所示,首先简单回顾了下各类视觉任务上的SOTA方法以及相应的方法概览,除了做致敬外,直觉是不同的视觉编码器混合在一起会有性能收益。结果如下图表所示:

b.)视觉特征聚合(SVA)

如何有效聚合多个视觉编码器特征成为核心,首先通过交叉注意力层与多个视觉编码器特征交互,其次在LLM的每个Block后都引入SVA。如下图所示:

c.)基准数据建设

左图通过开关视觉能力发现不同数据集对视觉依赖不同,有些数据集甚至不需要视觉能力输入,萌生了当前基准测试集有不同类型的基本构思。右图对各MLLM的基准测试集进行分析,得到了四大不同的基准类型:蓝色(通用)、黄色(知识)、红色(图表与OCR)和蓝色(以视觉为中心)。


上图中清晰看到视觉为中心的基准测试规模太小,接着作者通过如下图所示指导方法将传统视觉数据集转换为VQA的巧妙方式,提出了以视觉为中心的MLLM基准测试集(CV-Bench)。

d.)指令微调数据

        另外本文也着重做了指令微调数据的整理,还简易画出了数据制备的流程图。有需要更多细节的同学可以查看原文。原文中还有诸多关于一些个直觉和结论的观察性实验的分析,是较为严谨的实验科学。也提及了模型对话能力遗忘问题及其解决方法,强烈建议做MLLM训练或者微调的同学仔细精读原文,会有很多收获。

三、实验结果

a.)定性实验结果

        Cambrian-1在多个基准测试中取得了最先进的性能,并且在视觉中心任务中表现出色。

b.)定量实验结果

        在CV-Bench基准测试中,Cambrian-1模型在属性识别和空间关系推理任务上的表现显著优于其他系统。

c.)Ablation Study&Limitation

        消融研究验证了SVA设计和指令调整策略的有效性,通过对比实验展示了不同配置对模型性能的影响。存在的缺陷是Cambrian-1模型主要针对自然图像和常见对象,要扩展到文档、图表图像、长视频或开放世界环境,需要额外的训练和新算法设计。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆栈与堆内存 - C#

探索 C# 编程中内存管理的细微差别,区分值类型和引用类型,理解动态和静态内存分配,评估访问效率… 背景 以下是 C# 中堆栈和堆内存之间的主要区别列表。这适用于初学者和专业的 C# 开发人员。 C# 中栈和堆内存的区别 概括 现在&#xff0c…

主流电商平台API接口(天猫获得淘宝商品详情,获得淘宝app商品详情原数据 ,获得淘口令真实url API,按图搜索淘宝商品(拍立淘) API )

主流电商平台商品接口在电商企业中具有重要应用价值。通过商品接口,电商企业可以实现商品同步功能: 商品信息同步:通过接口可以实时同步主流电商平台上的商品信息,包括商品标题、价格、库存、销量等数据,确保企业在自…

RabbitMQ实践——搭建单人聊天服务

大纲 创建Core交换器用户登录发起聊天邀请接受邀请聊天实验过程总结代码工程 经过之前的若干节的学习,我们基本掌握了Rabbitmq各个组件和功能。本文我们将使用之前的知识搭建一个简单的单人聊天服务。 基本结构如下。为了避免Server有太多连线导致杂乱,下…

哈喽GPT-4o,对GPT-4o 数据分析Data Analysis的思考与看法

目录 上传一个Excel给Data Analysis。Prompt:请问这个数据集是做什么的Prompt:请问书籍的定价如何,请用合适的图表展示它的售价情况Prompt:请统计书名列中出现最多的名称,然后使用词云将其可视化。Prompt:请…

58.鸿蒙系统app(HarmonyOS)(ArkUI)更改应用程序图标

替换xx\MyApplication4.30\entry\src\main\resources\base\media目录下icon.png文件 54.HarmonyOS鸿蒙系统 App(ArkTS)tcp socket套接字网络连接收发测试_鸿蒙socket连接测试-CSDN博客

『Django』模型入门教程-操作MySQL

theme: smartblue 点赞 关注 收藏 学会了 本文简介 一个后台如果没有数据库可以说废了一半。日常开发中大多数时候都在与数据库打交道。Django 为我们提供了一种更简单的操作数据库的方式。 在 Django 中,模型(Model)是用来定义数据库结构的类。每个模型类通常对…

C++之STL(十二)

1、容器适配器 #include <iostream> #include <stack> #include <list> #include <queue> #include <functional> #include <iterator>using namespace std;int main() {// 栈&#xff08;先进后出filo&#xff09;stack<int, list<…

基于PHP的长城景区信息管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的长城景区信息管理系统 一 介绍 此长城景区信息管理系统基于原生PHP开发&#xff0c;数据库mysql。系统角色分为用户和管理员。 技术栈&#xff1a;phpmysqlphpstudyvscode 二 功能 用户 1 注册/登录/注销 2 浏览长城景区信息(旅…

Unity解决报错:Execution failed for task ‘:unityLibrary:BuildIl2CppTask‘

目录 编辑器版本2020.3.33f1 及 2021.3.15f1 直接导出apk或aar报错(虽然会自动生成temp的AS工程&#xff0c;经过打开验证 也是无解的)&#xff1b; 唯一解决办法&#xff1a;Unity导出As工程没问题&#xff1b; 编辑器版本2020.3.33f1 及 2021.3.15f1 直接导出apk或aar报…

[电子电路学]电路分析基本概念1

第一章 电路分析的基本概念和基本定律 电路模型 反映实际电路部件的主要电磁性质的理想电路元件及其组合&#xff0c;是实际电路电气特性的抽象和近似。 理想电路元件 实际电路器件品种繁多&#xff0c;其电磁特性多元而复杂&#xff0c;分析和计算时非常困难。而理想电路元件…

一款开源、免费、现代化风格的WPF UI控件库

前言 今天大姚给大家分享一款开源&#xff08;MIT License&#xff09;、免费、现代化风格的WPF UI控件库&#xff1a;ModernWpf。 项目介绍 ModernWpf是一个开源项目&#xff0c;它为 WPF 提供了一组现代化的控件和主题&#xff0c;使开发人员能够创建具有现代外观的桌面应…

【pytorch09】数学运算

1.数学操作 add/minus/multiply/dividematmulpowsqrt/rsqrtround 2.加减乘除 加法 矩阵乘法 torch.mm 只适用于2d torch.matmul 要分清楚是矩阵元素相乘&#xff0c;还是矩阵相乘 例子 x一共有4张照片&#xff0c;每张照片打平成784的向量&#xff0c;希望降维得到[4,51…

戴尔笔记本重装系统?笔记本卡顿失灵?一键重装系统!

随着科技的快速发展&#xff0c;笔记本电脑已成为我们日常生活和工作中不可或缺的工具。然而&#xff0c;随着时间的推移&#xff0c;笔记本可能会遇到各种问题&#xff0c;如系统卡顿、失灵等。这时&#xff0c;重装系统往往是一个有效的解决方案。本文将详细介绍如何在戴尔笔…

ONLYOFFICE 8.1编辑器桌面应用程序来袭——在线全面测评

目录 ✈下载✈ &#x1f440;界面&#x1f440; &#x1f44a;功能&#x1f44a; &#x1f9e0;幻灯片版式的重大改进&#x1f9e0; ✂无缝切换文档编辑、审阅和查看模式✂ &#x1f3b5;在演示文稿中播放视频和音频文件&#x1f3b5; &#x1f917;版本 8.1&#xff1a…

一键生成AI动画视频?Animatediff 和 ComfyUI 更配哦!

大家好我是极客菌&#xff01; 之前我分享过 Animatediff 在 WebUI 中的应用&#xff0c;最近不是在分享 ComfyUI 嘛&#xff0c;那我们也来讲讲 Animatediff 在 ComfyUI 的应用。 如果从工作流和内存利用率的角度来说&#xff0c;Animatediff 和 ComfyUI 可能更配一些&#…

深入理解SSH:网络安全的守护者

在当今数字化时代&#xff0c;网络安全已成为全球关注的焦点。随着网络攻击手段的不断升级&#xff0c;保护数据传输的安全性变得尤为重要。SSH&#xff08;Secure Shell&#xff09;作为一种安全的网络协议&#xff0c;为远程登录和网络服务提供了强大的安全保障&#xff0c;成…

Duix - 硅基数字人SDK

简介 Introduction DUIX(Dialogue User Interface System)是硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互,并在Android和iOS多终端一键部署,让每个开发者可轻松…

4A的「A」会变成AI的「A」吗?

戛纳国际创意节上&#xff0c;广告集团WPP的全球CEO Mark Read 和英国CEO Karen Blackett 解释了WPP如何应对AIGC所带来的「威胁」。同时&#xff0c;Mark Read 与Elon Musk对话&#xff0c;讨论「技术创新的变革力量&#xff0c;人工智能如何重塑创造力、商业和社会&#xff0…

合芯科技冯春阳博士受邀出席苏州大学技术分享会

近日&#xff0c;苏州大学电子信息学院与合芯科技苏州公司成功举办“新时代与‘芯’相遇&#xff0c;科技赋能向未来”的技术分享会。合芯科技冯春阳博士进行了主题为“高性能CPU关键技术与发展现状”的专题分享&#xff0c;并参加导师聘请仪式。苏州大学电子信息学院党委副书记…

苹果电脑有什么好玩的游戏 Windows电脑上的游戏怎么在Mac电脑玩

苹果电脑不仅在工作和生产领域备受推崇&#xff0c;其游戏领域也同样令人惊艳。从经典的策略游戏到刺激的竞技游戏&#xff0c;苹果平台上有着丰富多样的游戏选择&#xff0c;满足了不同玩家的喜好和需求。下面我们来看看苹果电脑有什么好玩的游戏&#xff0c;Windows电脑上的游…