Qwen-VL论文阅读

论文地址

其他同学的详细讲解

模型结构和参数大小

(1)LLM:Qwen-7B

(2)Vision Encoder:ViT架构,初始化参数是 Openclip’s ViT-bigG。

在训练和推理过程中,输入的图像都被调整到特定的分辨率。

视觉编码器通过将图像分割成步长为14 的块来处理图像,从而生成一组图像特征。

「 224 / 14 = 16 16 x 16 = 256」

(3)VL Adapter:Position-aware Vision-Language Adapter 位置感知 视觉-语言 适配器

主要作用是 压缩图像特征、减少由 长图像特征序列 引起的 效率问题。

这个Adapter 包括 一个 随机初始化的 单层交叉注意力模块 cross-attention

这个模块的 query 是一组可训练的向量,key 是 Vision Encoder 输出的图像特征

「这里的query 经过不断地训练,在图文的对齐上起到了 重要的作用」

这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失,而查询量过多则可能会增加收敛难度和计算成本」

整合 2D绝对位置编码 到 cross attention 中 query 和 key,以减轻图像压缩时的损失

随后,将256长度的压缩图像特征输入给 LLM

在这里插入图片描述

Qwen-VL训练的3个阶段

在这里插入图片描述

(1)预训练阶段

用 大规模、弱标注、网络爬虫抓取的 14亿图像文本对 数据集,其中 22.7% 中文数据

冻结 LLM的参数,仅对 Vision Encoder 和 VL Adapter 进行优化。

输入的图像大小调整为 224 x 224

训练目标是 文本 token 的交叉熵

最大学习率 2e-4

batchsize为 30720个 图像文本对

持续 50000步的训练

消耗约 15亿图像文本对的样本

这个阶段的目标是 对齐 Vision Encoder 和LLM的特征

(2)多任务训练阶段

用 高质量、细粒度的 VL 标注数据,采用 更大分辨率和交错的 图像文本对 同时进行 7个任务的 训练。

其中 简单地通过将同一任务的数据打包成长度为 2048 的序列来构造 交错的图像-文本数据 (不同训练集的数据)

并且将 Vision Encoder的输入分辨率 从 224 x 224 提升到 448 x 448,减少图像下采样造成的损失

训练目标和预训练阶段相同,但不冻结任一模块

这个阶段的目标是 强化模型的多模态能力

(3)有监督微调阶段

通过指令微调对Qwen-VL预训练模型进行了微调,以增强其遵循指令和多轮对话能力,从而得到了交互式的Qwen-VL-Chat模型

通过优化这个阶段的训练数据,使得模型具备定位和多图像理解能力

同时,通过混合纯文本数据,使得模型具有通用对话能力

这部分指令微调数据总量是 350k

此阶段冻结 Vision Encoder 模块,优化 LLM 和 VL Adapter 模块参数

训练数据示例:

训练目标:回答和特殊标记(如下图蓝色部分) 为了确保预测和训练之间的分布一致性
在这里插入图片描述

其他

Qwen-VL全新升级

注意:上述记录、忽略一些的细节,比如 input 和 output等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言函数递归实现汉诺塔问题

汉诺塔问题的大概 汉诺塔问题如图三个柱子,利用B将A上面的盘子移到C上面,但是一次只能移动一个盘子并且大的盘子不可以在小的盘子上面。 当只有三个盘子的时候,就像图片一样移动,当盘子多了起来我们就很难分得清逻辑了。 这个时候…

MySQL之查询性能优化(四)

查询性能优化 MySQL客户端/服务器通信协议 一般来说,不需要去理解MySQL通信协议的内部实现细节,只需要大致理解通信协议是如何工作的。MySQL客户端和服务器之间的通信协议是"半双工"的,这意味着,在任何一个时刻&#…

【退役之重学】为什么要加入多级缓存

一、为什么 加入多级缓存是为了提高数据访问的效率和性能 二、怎么做 在多级访问系统中,数据首先会被存储在速度最快的 L1 缓存中,如果数据在 L1 缓存中未命中,则会继续在 L2 缓存 和 L3 缓存中查找,如果在所有缓存中都未命中&…

java —— 打印流

打印流分字符打印流 PrintWriter 和字节打印流 PrintStream,两者用法基本一样,但字符打印流明显应用范围更广一些。 一、打印至控制台 public static void main(String[] args) {String str"hello";PrintWriter pwnew PrintWriter(System.ou…

神经网络与深度学习——第15章 序列生成模型

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第15章 序列生成模型,习题还没做先存在这里。 序列生成模型 序列概率模型 序列生成 N元统计模型 深度序列模型 模型结构 嵌入层 特征层 输出层 参数学习 评价方法 困惑度 BLEU算法 ROUGE算法 序…

redhat8安装cadence遇到的问题

问题1 virtuoso: ERROR: The OA2.2 library directory (/cadence/IC618/share/oa/lib/linux_rhel50_gcc48x_64/opt) does not seem to exist. virtuoso: INFO: You have OA_UNSUPPORTED_PLAT set to "linux_rhel50_gcc48x" in your environment: virtuoso: …

@EnableAuthorizationServer授权服务注解源码分析

文章目录 学习参考EnableAuthorizationServerAuthorizationServerEndpointsConfigurationTokenKeyEndpointRegistrarendpoints&clientDetailsService&configurersAuthorizationEndpoint授权端点TokenEndpoint令牌端点 学习参考 Spring Security框架配置运行流程完整分…

【面试题-007】说一下JVM原理

JVM(Java Virtual Machine,Java虚拟机)是Java语言的一个核心概念,它允许Java代码在不同的操作系统上运行,而不需要为每个平台编写不同的代码。JVM是一种抽象的计算机,它实现了Java语言规范中的所有功能&…

Aethir: 破局算力瓶颈,构建AI时代去中心化云基础设施

科技的每一次飞跃都在重新塑造世界,而近年来,跨越式的技术革新再次引发了深刻的变革,那就是人工智能(AI)。 人工智能已然超越了此前的所有技术概念,成为了继互联网之后的下一个巨大浪潮。从自动驾驶汽车到…

每天复习一点小CTF知识(6.4)

NSSCTF/[FSCTF 2023]夜深人静的时候也会偷偷emo 直接爆破压缩包,先来数字 解压好,一个flag.mp3 mp3隐写,直接干 得一个txt文件直接开

宇泰485中继器光电隔离防雷 工业级RS485信号放大器 UT-2209正品

品牌:other/其他 型号:UT-2209 上市时间:2018-01-01 颜色分类:蓝色 信号延长器,工业级,高性能,RS-485光电隔离中继器,兼容RS-485标准,延长通信距离,即插即用. 性能特点: 内置光电隔离器及DC/DC隔离模块. 采用TVS瞬态电…

读书-《蛤蟆先生去看心理医生》

书名蛤蟆先生去看心理医生作者罗伯特戴博德状态阅读中简介该书借用《柳林风声》的故事主角蛤蟆先生,讲述了他接受心理咨询的故事。作者通过陷入抑郁的蛤蟆先生和心理咨询师苍鹭的互动,探索蛤蟆先生爱炫耀、自卑性格和抑郁情绪的来源,指出童年…

MicroSIP 使用笔记

下载 https://www.microsip.org/ 习惯下载 portable zip 日志 日志非常重要,对查问题有巨大帮助 编辑 microsip.ini, enableLog1 修改 listen 端口 编辑 microsip.ini,sourcePort5060 sip nat 编辑 sip 账号,"Allow IP Rewrite…

定积分求解举例

定积分是微积分中的一个重要概念,用于求解连续函数在某一区间上的面积或体积等问题。下面我将给出一个定积分求解的举例。 假设我们要求解函数 f(x)x2 在区间 [0,1] 上的定积分,即求解 ∫01​x2dx 求解步骤 1. 找出被积函数 f(x) 的原函数 F(x) 对于…

【Python】 如何在Python中使用小数步长值的`range()`函数?

在Python编程中,range()函数是一个非常常用的工具,它用于生成一个整数序列。然而,标准的range()函数只能接受整数作为步长值,这在某些情况下可能会限制其应用。幸运的是,Python提供了一些方法来实现使用小数步长的rang…

优思学院|六西格玛绿带与黑带知识体系的比较,哪个更适合你?

六西格玛作为一种广泛应用的质量管理方法,通过减少缺陷和变异来提高输出质量。为了实现这些目标,六西格玛采用数据驱动的DMAIC(定义、测量、分析、改进、控制)方法。在六西格玛的实施过程中,绿带和黑带是两个关键角色。…

【代码随想录】【算法训练营】【第28天】 [93]复原IP地址 [78]子集 [90]子集II

前言 思路及算法思维,指路 代码随想录。 题目来自 LeetCode。 day 28,工作的周二~ 题目详情 [93] 复原 IP 地址 题目描述 93 复原 IP 地址 解题思路 前提:分割问题 思路:回溯算法,确定每次递归回溯的分割位置…

分布式文件系统-NFS

NFS 1. NFS工作原理 Linux中的网络文件系统NFS (Network File System)是一种分布式文件系统协议,它允许用户在网络上远程访问和操作文件,就好像这些文件存储在本地计算机上一样。NFS最初由Sun Microsystems在1980年代开发&#…

小短片创作-理论知识(五)

1、网格体绘制 1.UE5打开Megascan插件的材质混合器,创建混合材质,最多选择3个材质进行混合, 2.通过模式->网格体绘制,进入网格体绘制模式,通过select选择一个平面进行绘制,然后通过paint进行绘制&am…

关于线程池面试题,使用“豆包”训练答案

我提问: 问题描述 下面是一个有关线程池调度的面试真题,来自于疯狂创客圈社群: 一个线程池的核心线程数为10个,最大线程数为20个,阻塞队列的容量为30。现在提交45个 任务,每个任务的耗时为500毫秒。 请问&…