多模态大模型训练数据量以及训练方式

多模态大模型系列:LLaVA+LLaVA1.5/1.6+LLaVA-Med - 知乎就在前两天LLaVA 1.6发布了,带来了更大的分辨率,更强的LLM,在最后补充了这一部分的介绍。 LLaVA repo:https://github.com/haotian-liu/LLaVA/ LLaVA 1.0:Visual Instruction Tuning LLaVA 1.5:Improved Base…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/6797987371.llava

训练数据量:158K包括两类,Captions和Bounding boxes,先人工标准一些,作为In-context-learning的few-shot examples给GPT4,标注,llava_instruct_158k.json。

2.llava1.5

训练数据量:llava_v1_5_mix665k.json=150kGPT(llava_instruct_150k.json)+515VQA 学术data。

3.llava 1.6

训练数据量:LAION-GPT-V+ShareGPT-4V+15k visual instruction data,TextVQA+DocVQA+SynDog-EN+ChartQA+DVQA+AI2D

4.llava-med

训练数据量:pt=llava_med_alignment_500k.json,sft=llava_med_instruct_60k.json

5.qwen-vl

包括三个阶段,两个预训练阶段和一个指令微调阶段,

5.1 预训练阶段:清洗之后保留14亿数据,77.3%英文,22.7%中文,

在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。 

5.2 multi-task pre-training

在预训练第二阶段,引入了高质量和精细化的VL注释数据,使用更大输入分辨率图片,同时训练了7个任务,

将视觉编码器的输入分辨率从224x224增加到448x448,减少了下采样导致的信息丢失,解锁了大语言模型并对整个模型进行了训练,进行了19000步。

5.3 sft

多模式指令微调数据主要来源于标题数据或通过LLM自我生成的对话数据,这些数据通常只涉及单幅图像的对话和推理,并且仅限于对图像内容的理解,通过手动标注、模型生成和策略连接构建了一组额外的对话数据,已将定位和多图理解能力纳入QWen-VL中。总量为350k。

在训练过程中,仅通过监督答案和特殊标记(蓝色标记)来确保预测和训练分布的一致性,在这个阶段,将视觉编码器冻结,优化语言模型和adapter,QWen-VL-Chat的bs=128,最大lr=1e-6,最小lr=1e-6。

6.cogvlm

6.1 pretraining 

开源数据集:LAION-2B,COYO-700M,剔除有问题的,大概还有15亿张图像用于预训练。构造一个40M的视觉grounding数据集,在LAION-115M中采样,GLIPv2预测,确保75%的图像都至少有2个边界框。

训练:第一阶段针对image captioning loss,即文本的下一个预测。将CogVLM-17B在15亿个图像文本对上进行了120k迭代训练,bs为8196,得到base模型;预训练第二阶段是Referring Expression Comprehension和image captioning混合训练,15亿图像-文本对,bs为1024,60k迭代,最后30k把图片尺寸从224提升到490,得到CogVLM Grounding model。REC通过给出对象的文本描述,预测图像中的边界框,以VQA的形式进行训练,即Question:对象在哪里?Answer:[[x0,y0,x1,y1]]。可训练参数为65亿,消耗4096个A100/天。

6.2 alignment

对CogVLM进行微调,使其能够与任何主题自由形式指令相对齐。微调之后的模型为CogVLM-chat。

数据:SFT从LLAVA-Instruct、LRV-Instruction、LLaVAR和内部数据集中收集,共计50w个VQA对。SFT至关重要,LLaVA-Instruct由GPT4生成,手动进行了纠错。

训练:8k迭代,bs为640,lr为10-5,warmup迭代次数为50,为了防止过度拟合数据中的文本答案,使用了较小的学习率来更新语言模型,SFT中除了VIT,所有参数都参与训练。

7.visualglm

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;微调阶段,使用高质量图文指令数据对进行训练,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。预训练阶段:学习QFormer和Vit Lora参数。微调阶段:学习Qformer和ChatGLM的Lora参数。

8.minigpt

8.1 pretraining

优化投影层参数,500w图文数据对。

8.2 finetune

作者从Conceptual Caption数据集随机挑选5000图片。用stage1的模型来生成详细的图片描述。作者还对生成的每一个图文对进行了人工check,以此保证数据集的质量。清洗后获得了总计3500个图文对。只优化投影层。

9.minigptv2

架构与minigptv1类似,有所区别的是v2中llm也参与更新,三个阶段都参与更新。

第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。

第二阶段:只使用精细化数据训练,4XA100,训练50000步,le-5,bs=64,20h。

第三阶段:多模态指导数据集,4xA100,35000步,1e-5,bs=24,7h。

10.monkey

7.7B,重采样90M,编码器1.9B,Lora 117M,整体参数9.8B。数据:使用多级描述生成方法,从CC3M中重建427k个图像文本对。

应该只做了multitask training,VIT通过lora微调,训练了adapter和llm。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《C语言深度解剖》(9):深度剖析数据在内存中的存储

🤡博客主页:醉竺 🥰本文专栏:《C语言深度解剖》 😻欢迎关注:感谢大家的点赞评论关注,祝您学有所成! ✨✨💜💛想要学习更多数据结构与算法点击专栏链接查看&am…

操作系统安全:Windows与Linux的安全标识符,身份鉴别和访问控制

「作者简介」:2022年北京冬奥会中国代表队,CSDN Top100,学习更多干货,请关注专栏《网络安全自学教程》 操作系统有4个安全目标,也就是说想要保证操作系统的安全,就必须实现这4个需求: 标识系统…

系统安全与应用(1)

目录 1、账号安全管理 (1)禁止程序用户登录 (2)锁定禁用长期不使用的用户 (3)删除无用的账号 (4)禁止账号和密码的修改 2、密码安全管理 设置密码有效期 1)针对已…

一句话或一张图讲清楚系列之——ISERDESE2的原理

主要参考: https://blog.csdn.net/weixin_50810761/article/details/137383681 xilinx原语详解及仿真——ISERDESE2 作者:电路_fpga https://blog.csdn.net/weixin_45372778/article/details/122036112 Xilinx ISERDESE2应用笔记及仿真实操 作者&#x…

K8S Prometheus Springboot Actuator ServiceMonitor配置

用于展示Springboot Actuator监控内容 引入Springboot相关的监控配置包 Springboot pom配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId></dependency><depende…

K8s: Ingress对象, 创建Ingress控制器, 创建Ingress资源并暴露服务

Ingress对象 1 &#xff09;概述 Ingress 是对集群中服务的外部访问进行管理的 API 对象&#xff0c;典型的访问方式是 HTTPIngress-nginx 本质是网关&#xff0c;当你请求 abc.com/service/a, Ingress 就把对应的地址转发给你&#xff0c;底层运行了一个 nginx但 K8s 为什么不…

modelsim波形高度异常,值为X

一、问题 波形高度异常&#xff0c;忽高忽低&#xff0c;正常波形高电平和低电平是统一高度的 timescale 1ns/1nsmodule key_test_tb();//parameter define parameter CLK_PERIOD 20; parameter CNT_MAX 25d25; //仅用于仿真,对应 500nsreg sys_clk; //周期 20ns reg d; wir…

ffmpeg初体验

一&#xff1a;安装 sudo yum install epel-release -y sudo yum update -ysudo rpm --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro sudo rpm -Uvh http://li.nux.ro/download/nux/dextop/el7/x86_64/nux-dextop-release-0-5.el7.nux.noarch.rpmyum -y install …

Vs Code npm install 报错解决方法

用的人家的前端框架发现是封装过的&#xff0c;要修改人家前端的话还得把前端源码放在Vs Code 上运行&#xff0c;后端放在IDEA上运行&#xff0c;然后前后端并行开发&#xff0c;在配置前端环境时遇到&#xff1a; npm install 这个的原因是我把node下载到D盘了权限不够框框爆…

android学习笔记(五)-MVP模式

1、MVP模式demo的实现&#xff0c;效果下&#xff1a; 2、创建一个Fruit类&#xff1a; package com.example.listview; //Fruit类就是Model&#xff0c;表示应用程序中的数据对象。 public class Fruit {private int imageId;private String name;private String price;publi…

代码随想录算法训练营Day6 | 242.有效的字母异位词 ●349. 两个数组的交集 ● 202. 快乐数● 1. 两数之和

基础&#xff1a; 1.哈希表是根据关键值进行直接访问的数据结构&#xff0c;时间复杂度是O(1)&#xff0c;也就是通过数组的索引下标&#xff0c;直接访问数组中的元素哈希表的作用就是用来快速判断一个元素是否出现在集合里。 2.常见的哈希结构&#xff1a; 数组set &#…

计算机视觉 | 交通信号灯状态的检测和识别

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本项目旨在使用计算机视觉技术检测交通信号灯的状态&#xff0c;主要针对红色和绿色信号灯的识别。通过分析输入图像中的像素颜色信息&#xff0c;利用OpenCV库实现对信号灯状态的检测和识别。 目录 一、项目背景 二、项目功能…

CalcPad(2) 单位设置和绘制图表

CalcPad(2) 单位设置和绘制图表 Hi uu们&#xff0c;CalcPad用的还好吗&#xff1f;有发现一些问题吗&#xff1f; 在我的使用中&#xff0c;经常需要指定一些计算结果的符号&#xff0c;比如说我希望ADC最小分辨率的计算结果是以uV展示&#xff0c;那我们该怎么操作呢&#…

DB索引B+树SQL优化

数据库的索引就像一本书的目录&#xff0c;查数据快人一步&#xff0c;快速定位&#xff0c;精准打击&#xff01; 什么是数据库的索引&#xff1f; 官方介绍索引是帮助MySQL高效获取数据的数据结构。更通俗的说&#xff0c;数据库索引好比是一本书前面的目录&#xff0c;能加…

入坑 Node.js 1

原文&#xff1a;https://blog.iyatt.com/?p14717 前言 前面刚刚对 Spring Boot 有了个概念&#xff0c;再来学学 Node.js&#xff0c;顺便当学 JavaScript&#xff0c;为后面入前端做准备。 环境 Node.js 20.12.2 官方 API 文档&#xff1a;https://nodejs.org/docs/lat…

IBM SPSS Statistics for Mac:强大的数据分析软件

IBM SPSS Statistics for Mac是一款功能强大的数据分析软件&#xff0c;专为Mac用户设计&#xff0c;提供了一系列专业的统计分析和数据管理功能。无论是科研人员、数据分析师还是学生&#xff0c;都能从中获得高效、准确的数据分析支持。 IBM SPSS Statistics for Mac v27.0.1…

day_8题解

利用最大公约数求最小公倍数 #include<iostream> using namespace std;int gcd(int a,int b) {return b?gcd(b,a%b):a; }int main() {long long a,b;cin>>a>>b;long long ansgcd(a,b);cout<<(a*b)/ans<<endl;return 0; }排序遍历&#xff0c;记…

支持中文繁体,支持同时配置并启用飞书和Lark认证,JumpServer堡垒机v3.10.8 LTS版本发布

2024年4月22日&#xff0c;JumpServer开源堡垒机正式发布v3.10.8 LTS版本。JumpServer开源项目组将对v3.10 LTS版本提供长期的支持和优化&#xff0c;并定期迭代发布小版本。欢迎广大社区用户升级至v3.10 LTS最新版本&#xff0c;以获得更佳的使用体验。 在v3.10.8 LTS版本中&…

一款支持串口、网口自定义协议的调试软件

ComMax通讯调试软件是一款支持自定义串口&#xff0c;网口通讯协议的调试软件&#xff0c;用户可以根据需要&#xff0c;自定义协议包&#xff0c;然后根据接受的数据选择要发送的数据包。是一款强大、好用的调试软件。 点击下载 提取码&#xff1a;wmfg 不用安装 下载解压即…

《史铁生》-随记

史铁生的文案进一段总是刷到&#xff0c;文字在某些时候真的是一种无形的动力。小时候学过的书&#xff0c;长大了才会更加理解其中的蕴意。如看到的文字所说&#xff0c;教育具有长期性和滞后性&#xff0c;就像一个闭环&#xff0c;多年后你有一个瞬间突然意识到什么&#xf…