Cambrian-1:探索以视觉为中心的多模态LLM新纪元

一、摘要

论文:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs,https://arxiv.org/abs/2406.16860
主页:https://cambrian-mllm.github.io/
代码:https://github.com/cambrian-mllm/cambrian

        本文研发团队谢赛宁与LeCun秉持的观念是视觉表征是MLLM能力的突破口,做好MLLM需要回归视觉,而不是一味的增强LLM。研究的直觉是,寒武纪时期生物靠着以视觉为核心的感知能力,完成了对周围环境的理解并在此基础上生存与进化了下来。并且直至现在也表明依然可以靠单纯的视觉对物理世界进行理解并做出高效准确的行为。包括李飞飞、何凯明等学者也是非常认可这样的直觉,所以现在视觉学者们正在号召并躬身进行相应的研发创新,相信不久的未来会有更多有影响力的工作出来。本文介绍了Cambrian-1,这是一组以视觉为中心的多模态大型语言模型(MLLMs)系列,旨在通过大型语言模型(LLMs)和视觉指令调整来评估不同的视觉表示,提供对模型和架构的新见解。Cambrian-1通过实验评估了20多种视觉编码器,并对现有的MLLM基准进行了批判性检查,提出了一个新的视觉中心基准CV-Bench,以改善视觉基础。该方法对比4月份港中文贾佳亚团队的Mini-Gemini: 探索多模态视觉语言模型的新境界又提升了不少性能。

二、算法贡献

a.)视觉编码观察

如上图所示,首先简单回顾了下各类视觉任务上的SOTA方法以及相应的方法概览,除了做致敬外,直觉是不同的视觉编码器混合在一起会有性能收益。结果如下图表所示:

b.)视觉特征聚合(SVA)

如何有效聚合多个视觉编码器特征成为核心,首先通过交叉注意力层与多个视觉编码器特征交互,其次在LLM的每个Block后都引入SVA。如下图所示:

c.)基准数据建设

左图通过开关视觉能力发现不同数据集对视觉依赖不同,有些数据集甚至不需要视觉能力输入,萌生了当前基准测试集有不同类型的基本构思。右图对各MLLM的基准测试集进行分析,得到了四大不同的基准类型:蓝色(通用)、黄色(知识)、红色(图表与OCR)和蓝色(以视觉为中心)。


上图中清晰看到视觉为中心的基准测试规模太小,接着作者通过如下图所示指导方法将传统视觉数据集转换为VQA的巧妙方式,提出了以视觉为中心的MLLM基准测试集(CV-Bench)。

d.)指令微调数据

        另外本文也着重做了指令微调数据的整理,还简易画出了数据制备的流程图。有需要更多细节的同学可以查看原文。原文中还有诸多关于一些个直觉和结论的观察性实验的分析,是较为严谨的实验科学。也提及了模型对话能力遗忘问题及其解决方法,强烈建议做MLLM训练或者微调的同学仔细精读原文,会有很多收获。

三、实验结果

a.)定性实验结果

        Cambrian-1在多个基准测试中取得了最先进的性能,并且在视觉中心任务中表现出色。

b.)定量实验结果

        在CV-Bench基准测试中,Cambrian-1模型在属性识别和空间关系推理任务上的表现显著优于其他系统。

c.)Ablation Study&Limitation

        消融研究验证了SVA设计和指令调整策略的有效性,通过对比实验展示了不同配置对模型性能的影响。存在的缺陷是Cambrian-1模型主要针对自然图像和常见对象,要扩展到文档、图表图像、长视频或开放世界环境,需要额外的训练和新算法设计。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆栈与堆内存 - C#

探索 C# 编程中内存管理的细微差别,区分值类型和引用类型,理解动态和静态内存分配,评估访问效率… 背景 以下是 C# 中堆栈和堆内存之间的主要区别列表。这适用于初学者和专业的 C# 开发人员。 C# 中栈和堆内存的区别 概括 现在&#xff0c…

主流电商平台API接口(天猫获得淘宝商品详情,获得淘宝app商品详情原数据 ,获得淘口令真实url API,按图搜索淘宝商品(拍立淘) API )

主流电商平台商品接口在电商企业中具有重要应用价值。通过商品接口,电商企业可以实现商品同步功能: 商品信息同步:通过接口可以实时同步主流电商平台上的商品信息,包括商品标题、价格、库存、销量等数据,确保企业在自…

ubuntu/debian中安装OpenCV并且配置OpenCV开发环境

编译OpenCV 本文想编译第三方的模块,尤其时aruco模块以及sfm(structure from motion)模块,所以需要同时编译contrib代码。 由于sfm模块依赖其他一些库,这些库如果不提前安装,最后sfm不会编译 需要安装下面一些,sfm文…

python中的__hash__魔法函数详解

在Python中,__hash__ 是一个特殊方法(也称为魔法方法或双下划线方法),它用于定义对象的哈希值。哈希值是一个整数,通常用于在哈希表(如字典和集合)中快速查找对象。 当你试图将一个对象作为键添…

Spring Boot中的多模块项目构建

Spring Boot中的多模块项目构建 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 随着应用程序的复杂性增加,将一个大型的应用程序拆分为多个模块或…

HarmonyOS4升级到Harmonyos Next(Api 11)学习捷径

HarmonyOS4升级到Harmonyos Next(Api 11)学习捷径,新技术学习路上少走弯路。HarmonyOS NEXT和HarmonyOS 4的基本语法都是一样的,但是还有一些区别。如果你学会HarmonyOS4,那么HarmonyOS Next也自然而然的会了。 Harmon…

RabbitMQ实践——搭建单人聊天服务

大纲 创建Core交换器用户登录发起聊天邀请接受邀请聊天实验过程总结代码工程 经过之前的若干节的学习,我们基本掌握了Rabbitmq各个组件和功能。本文我们将使用之前的知识搭建一个简单的单人聊天服务。 基本结构如下。为了避免Server有太多连线导致杂乱,下…

哈喽GPT-4o,对GPT-4o 数据分析Data Analysis的思考与看法

目录 上传一个Excel给Data Analysis。Prompt:请问这个数据集是做什么的Prompt:请问书籍的定价如何,请用合适的图表展示它的售价情况Prompt:请统计书名列中出现最多的名称,然后使用词云将其可视化。Prompt:请…

笔记 - shell脚本

前言 Shell脚本是一种用来执行命令行命令的脚本文件。它是由一系列Shell命令组成的程序,通常用于自动化任务、系统管理、数据处理等。Shell脚本可以运行在各种Unix和Linux系统上,也可以在Windows上的一些兼容环境(如Cygwin、WSL)中…

js闭包函数

闭包是指在一个函数内部定义的函数,并且该函数可以访问到外部函数的变量。闭包可以将外部函数的变量保持在内存中,并且不会被释放。 闭包具有以下特性: 1. 函数内部定义的函数可以访问外部函数的变量。 2. 外部函数的变量可以保持在内存中&am…

[大师C语言(第三十九篇)]C语言const关键字深度解析与实战技巧

第一部分:C语言const关键字深度解析 一、const关键字的作用 在C语言中,const关键字是一个用于声明常量的修饰符。它用于指定一个变量的值在程序执行过程中不能被改变。使用const关键字可以确保代码的稳定性,防止不必要的变化,并…

58.鸿蒙系统app(HarmonyOS)(ArkUI)更改应用程序图标

替换xx\MyApplication4.30\entry\src\main\resources\base\media目录下icon.png文件 54.HarmonyOS鸿蒙系统 App(ArkTS)tcp socket套接字网络连接收发测试_鸿蒙socket连接测试-CSDN博客

『Django』模型入门教程-操作MySQL

theme: smartblue 点赞 关注 收藏 学会了 本文简介 一个后台如果没有数据库可以说废了一半。日常开发中大多数时候都在与数据库打交道。Django 为我们提供了一种更简单的操作数据库的方式。 在 Django 中,模型(Model)是用来定义数据库结构的类。每个模型类通常对…

C++之STL(十二)

1、容器适配器 #include <iostream> #include <stack> #include <list> #include <queue> #include <functional> #include <iterator>using namespace std;int main() {// 栈&#xff08;先进后出filo&#xff09;stack<int, list<…

基于PHP的长城景区信息管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的长城景区信息管理系统 一 介绍 此长城景区信息管理系统基于原生PHP开发&#xff0c;数据库mysql。系统角色分为用户和管理员。 技术栈&#xff1a;phpmysqlphpstudyvscode 二 功能 用户 1 注册/登录/注销 2 浏览长城景区信息(旅…

Unity解决报错:Execution failed for task ‘:unityLibrary:BuildIl2CppTask‘

目录 编辑器版本2020.3.33f1 及 2021.3.15f1 直接导出apk或aar报错(虽然会自动生成temp的AS工程&#xff0c;经过打开验证 也是无解的)&#xff1b; 唯一解决办法&#xff1a;Unity导出As工程没问题&#xff1b; 编辑器版本2020.3.33f1 及 2021.3.15f1 直接导出apk或aar报…

Pytorch-----(6)

一 、问题 如何计算基于不同变量的操作如矩阵乘法。 二、具体实现 0.4版本以前&#xff0c;张量是包裹在变量之中的&#xff0c;后者有三个属性grad、volatile和 requires_grad属性。&#xff08;grad 就是梯度属性&#xff0c;requires_grad属性就是 是否需要存储梯度&#x…

[电子电路学]电路分析基本概念1

第一章 电路分析的基本概念和基本定律 电路模型 反映实际电路部件的主要电磁性质的理想电路元件及其组合&#xff0c;是实际电路电气特性的抽象和近似。 理想电路元件 实际电路器件品种繁多&#xff0c;其电磁特性多元而复杂&#xff0c;分析和计算时非常困难。而理想电路元件…

一款开源、免费、现代化风格的WPF UI控件库

前言 今天大姚给大家分享一款开源&#xff08;MIT License&#xff09;、免费、现代化风格的WPF UI控件库&#xff1a;ModernWpf。 项目介绍 ModernWpf是一个开源项目&#xff0c;它为 WPF 提供了一组现代化的控件和主题&#xff0c;使开发人员能够创建具有现代外观的桌面应…

【pytorch09】数学运算

1.数学操作 add/minus/multiply/dividematmulpowsqrt/rsqrtround 2.加减乘除 加法 矩阵乘法 torch.mm 只适用于2d torch.matmul 要分清楚是矩阵元素相乘&#xff0c;还是矩阵相乘 例子 x一共有4张照片&#xff0c;每张照片打平成784的向量&#xff0c;希望降维得到[4,51…