llava1.5论文阅读

Improved Baselines with Visual Instruction Tuning
通过视觉指令微调增强的基线方法

论文摘要: 我们发现,LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

3.3 数据和模型的scaling

受到将线性投影转变为多层感知机(MLP)在自我监督学习中提高性能的启发[9, 10],

我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力,可以提升LLaVA的多模态功能,相比原始的线性投影有所增强。

QA

LLaVA1.5 的 跨模态连接器

LLaVA 1.5使用的是视觉-语言连接方案,具体如下:

  1. 视觉编码器:采用 CLIP 的视觉编码器(CLIP-ViT-L/14),并且将输入图像的分辨率从 224px 提升到 336px,这使得模型对图像细节的理解能力更强,能够提取更高质量的视觉特征。

  2. 跨模态连接器:由原来的单个线性层替换为多层感知机(MLP)层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数,这种结构增强了连接器的表达能力,能够更好地融合视觉和语言信息。相比原始的线性投影架构,MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。

  3. 语言模型:使用 Vicuna v1.5 13b 作为语言模型,语言模型参数量更大,效果更好。在输入方面,视觉和语言的指令在同一个特征空间,一起拼接后送进模型进行处理,实现了图像和语言在模型中的交互和融合。

CogVLM

CogVLM的跨模态连接器主要是通过视觉专家模块(Visual Expert Module)来实现的。具体情况如下:

  1. 结构组成

    • QKV矩阵:每一层的视觉专家模块都包含一个QKV矩阵,其形状与预训练语言模型中的形状相同,并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式,使得图像特征能够更好地与语言模型进行交互和融合。
    • MLP层:除了QKV矩阵,视觉专家模块还包含一个MLP(多层感知机)层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换,增强模型对视觉和语言特征的深度理解和融合能力。
  2. 作用原理:在模型的每一层中,图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合,而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式,CogVLM能够更好地理解图像和文本之间的关系,提高模型在各种视觉语言任务上的性能。

  3. 优势特点

    • 增强特征融合:可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异,提高信息的质量和准确性,实现视觉语言特征的深度融合,避免了浅层对齐方法中信息损失和噪声干扰的问题。
    • 保持语言模型性能:在保持语言模型原有参数固定的情况下,当输入序列不包含图像时,模型的表现与原语言模型相同,不会影响语言模型在纯文本任务上的性能。同时,利用冻结的预训练语言模型还可以降低计算成本和内存消耗,提高计算效率和可扩展性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/54912.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

支付宝支付Java+uniapp支付宝小程序

JS: request.post(/vip/pay, {//这是自己写的java支付接口id: this.vipInfo.id,payWay: alipay-mini}).then((res) > {let success (res2) > {//前端的支付成功回调函数this.$refs.popup.close();// 支付成功刷新当前页面setTimeout(() > {this.doGetVipI…

机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+

时间序列在回归预测的领域的重要性,不言而喻,在数学建模中使用及其频繁,但是你真的了解ARIMA、AR、MA么?ACF图你会看么?? 时间序列数据如何构造???,我打过不少…

读书笔记 - 虚拟化技术 - 0 QEMU/KVM概述与历史

《QEMU/KVM源码解析与应用》 - 王强 概述 虚拟化简介 虚拟化思想 David Wheeler:计算机科学中任何问题都可以通过增加一个中间层来解决。 虚拟化思想存在与计算机科学的各个领域。 主要思想:通过分层将底层的复杂,难用的资源虚拟抽象为简…

32单片机 低功耗模式

以下是一个基于STM32的低功耗模式示例代码,展示如何将STM32微控制器置于低功耗模式,并在特定条件下唤醒它。这个示例使用的是STM32 HAL库。 ### 示例代码:进入睡眠模式并使用外部中断唤醒 c #include "stm32f4xx_hal.h" // 函数声明…

笔记本电脑按住电源键强行关机,对电脑有伤害吗?

电脑卡住了,我们习惯性地按住电源键或者直接拔掉电源强制关机,但这种做法真的安全吗?会不会对电脑造成伤害呢? 其实,按住电源键关机和直接拔掉电源关机是不一样的。它们在硬件层面有着本质区别。 按住电源键关机 当…

网络常用配置和运维命令以及使用方法

一、网络运维常见配置及命令 以下是一些整理简单网络常用配置和运维命令 1、ifconfig/ipconfig:查看和配置网络接口配置。 用法:ifconfig 或 ipconfig2、route/netstat -r:查看路由表。 用法:route -n 或 netstat -r3、netsta…

Spring Cloud 3.x 集成eureka快速入门Demo

1.什么是eureka? Eureka 由 Netflix 开发,是一种基于REST(Representational State Transfer)的服务,用于定位服务(服务注册与发现),以实现中间层服务的负载均衡和故障转移&#xff…

工业和自动化领域常见的通信协议

在工业和自动化领域,有多种常见的通信协议,主要用于设备间的通信、数据传输和控制。 Modbus: 类型:串行通信协议用途:广泛用于工业自动化设备间的通信,如PLC、传感器和执行器。优点:简单、开放且…

day01-Qt5入门

day01-Qt5入门 窗体应用 1.1 窗体基类说明 创建项目在details中编辑器提供了三个基类,分别是 QMainWindows、Qwidget、QDialog 1、 QMainWindow QMainWindow 类提供一个有菜单条、锚接窗口(例如工具条)和一个状态条的主应用 程序窗口。…

【系统架构设计师】案例专题六(8大系统架构设计之1): 信息系统架构设计考点梳理

更多内容请见: 备考系统架构设计师-核心总结目录 文章目录 一、信息系统架构基本概念二、信息系统架构1、信息系统架构分类2、信息系统常用4种架构模型3、企业信息系统的总体框架三、信息系统架构设计方法1、ADM架构开发方法2、信息化总体架构方法3、TOGAF的目标、思想和组件四…

【C语言实现TCP客户端】

Question C语言实现TCP客户端 Answer 下面是一个简单的 C 语言实现的 TCP 客户端示例。这个客户端将连接到指定的服务器地址和端口&#xff0c;并发送一条消息&#xff0c;然后接收服务器返回的消息。 #include <stdio.h> #include <stdlib.h> #include <st…

Java-基础

1. 导入模块不能纯粹的复制粘贴&#xff0c;要从new里导入&#xff0c;因为前者建立不了关联 2. 数组 String[] name{"张三","李四","王五"};int[] numsnew int[]{1,2,3};//二维String[][] names{{"张三","李四"},{"…

RT-DETR改进策略:BackBone改进|CAFormer在RT-DETR中的创新应用,显著提升目标检测性能

摘要 在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入RT-DETR模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。 CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力…

MATLAB - 机械臂手眼标定(眼在手内) - 估计安装在机器人上的移动相机的姿态

系列文章目录 前言 本示例展示了如何为装有手眼构型摄像头的机械臂或机械手执行和验证手眼校准。 一、概述 执行手眼校准有助于操作配备末端执行器&#xff08;简称 “手”&#xff09;的机械臂&#xff0c;该末端执行器依赖于摄像头提供的视觉数据。一旦完成了眼在手外的校准&…

LabVIEW 成绩统计系统

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

【算法】- 查询 -平衡二叉树

文章目录 前言一、平衡二叉树思想二、如何进行平衡调整2.1如何实现左平衡&#xff08;L_Balance&#xff09; 三、平衡二叉树总结 前言 编译语言&#xff1a;C 编译器&#xff1a;VS2022 一、平衡二叉树思想 在上节我们讲到了二叉排序树&#xff0c;当我们在使用二叉排序树时&a…

中科星图GVE(案例)——AI实现建筑用地变化前后对比情况

目录 简介 函数 gve.Services.AI.ConstructionLandChangeExtraction(image1,image2) 代码 结果 知识星球 机器学习 简介 AI可以通过分析卫星图像、航拍影像或其他地理信息数据&#xff0c;实现建筑用地变化前后对比。以下是一种可能的实现方法&#xff1a; 数据获取&am…

【Axure安装包与汉化包附带授权证书】

一、下载Axure安装包与汉化包附带授权证书 1.下载汉化包 【快传】: 点击链接即可保存 2.解压安装包 解压下载好的压缩包&#xff0c;能看到有lang也就是汉化包&#xff0c;AxureRP-Setup-RC.exe 也就是Axure9的安装程序&#xff0c;以及汉化说明和授权码。 二、安装Axure9…

小猿口算APP脚本(协议版)

小猿口算是一款专注于数学学习的教育应用,主要面向小学阶段的学生。它提供多种数学练习和测试,包括口算、速算、应用题等。通过智能化的题目生成和实时批改功能,帮助学生提高数学计算能力。此外,它还提供详细的学习报告和分析,帮助家长和教师了解学生的学习进度和薄弱环节…

【深度学习】— 多层感知机介绍、 隐藏层、从线性到非线性、线性模型的局限性

【深度学习】— 多层感知机介绍 4.1 多层感知机4.1.1 隐藏层线性模型的局限性引入隐藏层 4.2 从线性到非线性线性组合的局限性引入非线性堆叠更多隐藏层 4.1 多层感知机 在第 3 节中&#xff0c;我们介绍了 softmax 回归&#xff0c;并实现了其从零开始的实现和基于高级 API 的…