论文阅读——llava

论文阅读——llava

news/2025/7/5 3:51:11/文章来源:https://blog.csdn.net/weixin_43575791/article/details/135156391

Visual Instruction Tuning

LLaVA

指令智能体分为两类：端到端的，通过LangChain[1]/LLM[35]协调各种模型的系统。

数据集生成用GPT辅助生成的，具体不写了。

模型结构：

input image Xv

LLM：Vicuna

visual encoder：pre-trained CLIP visual encoder ViT-L/14

W是为了和词向量一个维度（we apply a trainable projection matrix W to convert Zv into language embedding tokens Hv, which have the same dimensionality as the word embedding space in the language model）

这个线性映射很简单，也可以设计复杂一些，比如gated cross-attention in Flamingo [2] and Q-former in BLIP-2。

Training：

给一张图片有很多问答对：

这就使得多模态指令的统一格式。使用LLM的原始自回归训练目标，对LLM预测的tokens执行指令调整。

两阶段训练：

Stage 1: Pre-training for Feature Alignment.

对于图像Xv，随机采样问题Xq，这是要求assistant简要描述图像的语言指令。GT答案Xa是原始标题。

保持视觉编码器和LLM权重冻结，并仅在可训练参数θ=W（投影矩阵）

Stage 2: Fine-tuning End-to-End.

保持视觉编码器权重冻结，并继续更新LLaVA中投影层和LLM的预训练权重

实验：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/239142.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

MySQL的hash索引

MySQL的hash索引

MySQL有BTree 索引及Hash索引等索引类型，BTree索引类型是MySQL采用最多的索引类型。Hash索引使用场景比较有限，文章将从Hash索引的底层结构出发，来分析Hash索引的利与弊。 1 hash数据结构 hash数据结构由键、哈希函数及哈希表组成。键&am…

阅读更多...

GBASE南大通用数据库GBase JDBC的格式

GBASE南大通用数据库GBase JDBC的格式

对于 GBASE南大通用数据库GBase JDBC ，JDBC URL 的格式如下，方括号([, ])里的项是可选的： jdbc:gbase://[host][:port]/[database][?propertyName1][propertyV alue1][&propertyName2][propertyValue2]... 如果没有指定数据库&#xf…

阅读更多...

Redis BitMap（位图）

Redis BitMap（位图）

这里是小咸鱼的技术窝（CSDN板块），我又开卷了之前经手的项目运行了10多年，基于重构，里面有要实现一些诸如签到的需求，以及日历图的展示，可以用将签到信息存到传统的关系型数据库（MyS…

阅读更多...

如何无损放大图片？教你三种方法轻松提高画质

如何无损放大图片？教你三种方法轻松提高画质

如何无损放大图片？如果你在网上找到的素材图片分辨率低且模糊不清，又找不到原图的出处，那么如何无损放大图片呢？以下三个技巧可以帮你解决这个问题。技巧一：使用专业的图像处理工具水印云一款专业的图像处理工具可以…

阅读更多...

MybatisPlus代码生成器

MybatisPlus代码生成器

MybatisPlus代码生成器可以根据设计好数据库表，自动帮助我们完成对应表的controller层，service层，entiy层和mapper层的基础代码，简化开发 1）导入依赖 <dependency><groupId>org.apache.velocity</grou…

阅读更多...

Flutter本地化(国际化)之App名称

Flutter本地化(国际化)之App名称

文章目录 Android国际化IOS国际化 Flutter开发的App，如果名称想要跟随着系统的语言自动改变，则必须同时配置Android和IOS原生。 Android国际化打开android\app\src\main\res\values 创建strings.xml 在values上右键，选择New>Values Res…

阅读更多...

6. 行为模式 - 观察者模式

6. 行为模式 - 观察者模式

亦称： 事件订阅者、监听者、Event-Subscriber、Listener、Observer 意图观察者模式是一种行为设计模式， 允许你定义一种订阅机制， 可在对象事件发生时通知多个 “观察” 该对象的其他对象。问题假如你有两种类型的对象： 顾…

阅读更多...

MyBatis关联查询（三、多对多查询）

MyBatis关联查询（三、多对多查询）

MyBatis关联查询（三、多对多查询） 需求：查询角色及角色赋予的用户信息。分析：一个用户可以拥有多个角色，一个角色也可以赋予多个用户，用户和角色为双向的一对多关系，多对多关系其实我们看成是…

阅读更多...

云闪付支付：一种新型的移动支付方式

云闪付支付：一种新型的移动支付方式

随着科技的发展，我们的生活方式也在不断地改变。其中，移动支付已经成为我们生活中不可或缺的一部分。而在这个领域中，云闪付支付无疑是一种新型的、高效便捷的支付方式。那么，云闪付支付究竟是什么，它又有哪些特点呢&a…

阅读更多...

华为交换机配置BGP的基本示例

华为交换机配置BGP的基本示例

BGP简介定义边界网关协议BGP（Border Gateway Protocol）是一种实现自治系统AS（Autonomous System）之间的路由可达，并选择最佳路由的距离矢量路由协议。早期发布的三个版本分别是BGP-1（RFC1105&#xff0…

阅读更多...

树莓派-Pico控制舵机

树莓派-Pico控制舵机

目录前言一、SG90舵机是什么？参数介绍工作原理二、与舵机信号线的接线图三、给树莓派Pico注入灵魂（代码）总结前言这价格便宜的树莓派Pico总觉得应该拿来做点什么，它总不能只用来点亮几个灯就没别的用途了吧，所以就…

阅读更多...

一键启动脚本，Karfka，RocketMQ

一键启动脚本，Karfka，RocketMQ

文章目录前言KarfkaRocketMQ 前言服务器上有一些应用，启动步骤比较繁琐，需要依次启动多个服务。服务之间存在依赖关系。例如：必须服务1启动成功才能启动服务2。现将启动服务的步骤写成了sh脚本，大家可以参考这个脚本写一个自己…

阅读更多...

Python的内存管理与垃圾回收机制

Python的内存管理与垃圾回收机制

内存管理 Python的内存管理主要由Python的内存管理器负责。Python的内存管理器会负责为对象分配内存，并在不再需要时将其回收。这种管理方式通常称为“自动内存管理”。在Python中，当你创建一个对象（例如，一个列表或字典&#…

阅读更多...

C++ Qt开发：Charts绘图组件概述

C++ Qt开发：Charts绘图组件概述

Qt 是一个跨平台C图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本章将重点介绍QCharts二维绘图组件的常用方法及灵活运用。 …

阅读更多...

Redis 6 性能大揭秘：如何优化缓存命中率？

Redis 6 性能大揭秘：如何优化缓存命中率？

Redis 6的性能优化，特别是关于如何优化缓存命中率。这篇文章会包含10个代码示例，帮助深入理解和应用相关的技巧 1、监控缓存命中率在优化之前，首先要了解当前的缓存命中率。Redis提供了INFO命令来查看性能指标，包括命中率。…

阅读更多...

NVMe介绍

NVMe介绍

NVMe介绍 1 概述2 操作原理2.1 Queue基本原理2.2 Admin与I/O Queue2.3 Submission与Completion Queue2.4 Submission与Completion Queue对应关系 3 多路径I/O和命名空间共享3.1 1Port1Controller3.2 1Port2Controller3.3 2Port2Controller3.4 SR-IOV 本文属于《 NVMe协议基础系…

阅读更多...

Quartz.net 正则表达式触发器

Quartz.net 正则表达式触发器

1、创建项目项目类型控制台应用程序，.Net Framework框架版本 4.7.2 2、引入框架 NuGet\Install-Package Quartz -Version 3.8.0 3、创建Job 自定义Job实现接口IJob，在Execute方法实现定时逻辑， using Quartz; using System; using Sys…

阅读更多...

Angular.js 实现带手柄自由调整页面大小的功能

Angular.js 实现带手柄自由调整页面大小的功能

因为目前是处于在angular项目中，所以下面分别一个记录简易的angular.js和在angular项目中使用的版本，仅供大家参考。 Angular.js <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta …

阅读更多...

Echarts饼图tooltip渐变色，内部legend百分比保留整数方法

Echarts饼图tooltip渐变色，内部legend百分比保留整数方法

业务场景：1、tooltip的背景需要渐变色，写 html 标签， 2、饼图内部的百分比需要保留整数 ，使用formatter， export function genChartPieOption(pieData) {const res {replaceMerge: [series,], // 解决刷新之后y轴丢失…

阅读更多...

web前端游戏项目-堆木头游戏【附源码】

web前端游戏项目-堆木头游戏【附源码】

web前端游戏项目-堆木头游戏《堆木头》游戏玩法简单，通过鼠标点击放木头的按钮，叠加在一起，构建出各种结构。游戏适合所有年龄段的孩子，可以锻炼孩子的动手能力和手眼协调能力，激发孩子的创造力和想象力运行效果 …

阅读更多...

最新文章