多模态大模型训练数据量以及训练方式

多模态大模型系列:LLaVA+LLaVA1.5/1.6+LLaVA-Med - 知乎就在前两天LLaVA 1.6发布了,带来了更大的分辨率,更强的LLM,在最后补充了这一部分的介绍。 LLaVA repo:https://github.com/haotian-liu/LLaVA/ LLaVA 1.0:Visual Instruction Tuning LLaVA 1.5:Improved Base…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/6797987371.llava

训练数据量:158K包括两类,Captions和Bounding boxes,先人工标准一些,作为In-context-learning的few-shot examples给GPT4,标注,llava_instruct_158k.json。

2.llava1.5

训练数据量:llava_v1_5_mix665k.json=150kGPT(llava_instruct_150k.json)+515VQA 学术data。

3.llava 1.6

训练数据量:LAION-GPT-V+ShareGPT-4V+15k visual instruction data,TextVQA+DocVQA+SynDog-EN+ChartQA+DVQA+AI2D

4.llava-med

训练数据量:pt=llava_med_alignment_500k.json,sft=llava_med_instruct_60k.json

5.qwen-vl

包括三个阶段,两个预训练阶段和一个指令微调阶段,

5.1 预训练阶段:清洗之后保留14亿数据,77.3%英文,22.7%中文,

在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。 

5.2 multi-task pre-training

在预训练第二阶段,引入了高质量和精细化的VL注释数据,使用更大输入分辨率图片,同时训练了7个任务,

将视觉编码器的输入分辨率从224x224增加到448x448,减少了下采样导致的信息丢失,解锁了大语言模型并对整个模型进行了训练,进行了19000步。

5.3 sft

多模式指令微调数据主要来源于标题数据或通过LLM自我生成的对话数据,这些数据通常只涉及单幅图像的对话和推理,并且仅限于对图像内容的理解,通过手动标注、模型生成和策略连接构建了一组额外的对话数据,已将定位和多图理解能力纳入QWen-VL中。总量为350k。

在训练过程中,仅通过监督答案和特殊标记(蓝色标记)来确保预测和训练分布的一致性,在这个阶段,将视觉编码器冻结,优化语言模型和adapter,QWen-VL-Chat的bs=128,最大lr=1e-6,最小lr=1e-6。

6.cogvlm

6.1 pretraining 

开源数据集:LAION-2B,COYO-700M,剔除有问题的,大概还有15亿张图像用于预训练。构造一个40M的视觉grounding数据集,在LAION-115M中采样,GLIPv2预测,确保75%的图像都至少有2个边界框。

训练:第一阶段针对image captioning loss,即文本的下一个预测。将CogVLM-17B在15亿个图像文本对上进行了120k迭代训练,bs为8196,得到base模型;预训练第二阶段是Referring Expression Comprehension和image captioning混合训练,15亿图像-文本对,bs为1024,60k迭代,最后30k把图片尺寸从224提升到490,得到CogVLM Grounding model。REC通过给出对象的文本描述,预测图像中的边界框,以VQA的形式进行训练,即Question:对象在哪里?Answer:[[x0,y0,x1,y1]]。可训练参数为65亿,消耗4096个A100/天。

6.2 alignment

对CogVLM进行微调,使其能够与任何主题自由形式指令相对齐。微调之后的模型为CogVLM-chat。

数据:SFT从LLAVA-Instruct、LRV-Instruction、LLaVAR和内部数据集中收集,共计50w个VQA对。SFT至关重要,LLaVA-Instruct由GPT4生成,手动进行了纠错。

训练:8k迭代,bs为640,lr为10-5,warmup迭代次数为50,为了防止过度拟合数据中的文本答案,使用了较小的学习率来更新语言模型,SFT中除了VIT,所有参数都参与训练。

7.visualglm

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;微调阶段,使用高质量图文指令数据对进行训练,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。预训练阶段:学习QFormer和Vit Lora参数。微调阶段:学习Qformer和ChatGLM的Lora参数。

8.minigpt

8.1 pretraining

优化投影层参数,500w图文数据对。

8.2 finetune

作者从Conceptual Caption数据集随机挑选5000图片。用stage1的模型来生成详细的图片描述。作者还对生成的每一个图文对进行了人工check,以此保证数据集的质量。清洗后获得了总计3500个图文对。只优化投影层。

9.minigptv2

架构与minigptv1类似,有所区别的是v2中llm也参与更新,三个阶段都参与更新。

第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。

第二阶段:只使用精细化数据训练,4XA100,训练50000步,le-5,bs=64,20h。

第三阶段:多模态指导数据集,4xA100,35000步,1e-5,bs=24,7h。

10.monkey

7.7B,重采样90M,编码器1.9B,Lora 117M,整体参数9.8B。数据:使用多级描述生成方法,从CC3M中重建427k个图像文本对。

应该只做了multitask training,VIT通过lora微调,训练了adapter和llm。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《C语言深度解剖》(9):深度剖析数据在内存中的存储

🤡博客主页:醉竺 🥰本文专栏:《C语言深度解剖》 😻欢迎关注:感谢大家的点赞评论关注,祝您学有所成! ✨✨💜💛想要学习更多数据结构与算法点击专栏链接查看&am…

操作系统安全:Windows与Linux的安全标识符,身份鉴别和访问控制

「作者简介」:2022年北京冬奥会中国代表队,CSDN Top100,学习更多干货,请关注专栏《网络安全自学教程》 操作系统有4个安全目标,也就是说想要保证操作系统的安全,就必须实现这4个需求: 标识系统…

【Redis(9)】Spring Boot整合Redis,实现分布式锁,保证分布式系统中节点操作一致性

在上一篇系列文章中,咱们利用Redis解决了缓存穿透、缓存击穿、缓存雪崩等缓存问题,Redis除了解决缓存问题,还能干什么呢?这是今天咱们要接着探讨的问题。 在分布式系统中,为了保证在多个节点间操作的一致性&#xff0…

系统安全与应用(1)

目录 1、账号安全管理 (1)禁止程序用户登录 (2)锁定禁用长期不使用的用户 (3)删除无用的账号 (4)禁止账号和密码的修改 2、密码安全管理 设置密码有效期 1)针对已…

Centos7 tcpdump -w 时遇到 Permission denied

一、问题 使用tcpdump抓包并写入文件时出现 Permission denied,权限不足。 [rootstorm03 tcpdumpTest]# tcpdump -i em4 udp and host 225.1.2.5 and port 10111 -G 60 -w %Y_%m%d_%H%M_%S.pcap tcpdump: listening on em4, link-type EN10MB (Ethernet), capture…

oracle之--动态sql(execute immediate ‘ ‘)

动态sql--execute immediate 原因:ddl语句,truncate语句 不能直接使用,需要封装起来 --动态sql--execute immediate 因为ddl,truncate 不能直接使用,需要封装起来 --1.TRUNCATE table declare BEGIN --truncate…

熵权法处理TIFF图像

一、熵权法 又称熵值法,是一种客观赋权法,根据各项指标观测值所提供的信息大小来确定指标权重,具体细节可以参阅Stata-熵值法(熵权法)计算实现。 二、原理 根据指标特性,可以用熵值判断某个指标的离散程…

40、排列数字

排列数字 题目描述 给定一个整数n,将数字1~n排成一排,将会有很多种排列方法。 现在,请你按照字典序将所有的排列方法输出。 输入格式 共一行,包含一个整数n。 输出格式 按字典序输出所有排列方案,每个方案占一行…

一句话或一张图讲清楚系列之——ISERDESE2的原理

主要参考: https://blog.csdn.net/weixin_50810761/article/details/137383681 xilinx原语详解及仿真——ISERDESE2 作者:电路_fpga https://blog.csdn.net/weixin_45372778/article/details/122036112 Xilinx ISERDESE2应用笔记及仿真实操 作者&#x…

K8S Prometheus Springboot Actuator ServiceMonitor配置

用于展示Springboot Actuator监控内容 引入Springboot相关的监控配置包 Springboot pom配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId></dependency><depende…

前端CSS基础7(背景相关属性,鼠标相关属性)

前端CSS基础7&#xff08;元素的背景相关属性&#xff0c;鼠标相关属性&#xff09; CSS背景相关属性CSS鼠标相关属性 CSS背景相关属性 在 CSS 中&#xff0c;可以使用多种属性来设置元素的背景样式。以下是一些常用的 CSS 背景相关属性&#xff1a; background-color&#x…

K8s: Ingress对象, 创建Ingress控制器, 创建Ingress资源并暴露服务

Ingress对象 1 &#xff09;概述 Ingress 是对集群中服务的外部访问进行管理的 API 对象&#xff0c;典型的访问方式是 HTTPIngress-nginx 本质是网关&#xff0c;当你请求 abc.com/service/a, Ingress 就把对应的地址转发给你&#xff0c;底层运行了一个 nginx但 K8s 为什么不…

F5应用及配置

F5网络公司的BIG-IP系列设备主要被应用于负载均衡&#xff0c;同时也提供应用交付网络功能。 以下是F5 BIG-IP配置和应用的一些要点&#xff1a; 管理接口&#xff1a;F5设备可以通过图形化界面或命令行界面进行配置和管理。图形化界面适合进行设备的基础以及高级调试&#x…

framework.jar如何导入到android studio中进行framework的开发+系统签名

framework的开发 生成framework.jar的方式 链接: framework.jar 生成 如何生成一个系统签名 链接: 生产系统签名 生成 platform.x509.pem、platform.pk8文件位置 生产系统签名 清单文件位置改变 <manifest xmlns:android"http://schemas.android.com/apk/res/a…

代码随想录算法训练营第6天 | 242. 有效的字母异位词 | 349. 两个数组的交集 | 202. 快乐数 | 1. 两数之和

242. 有效的字母异位词 题意 两个字符串中每个字符的出现次数是否一样 解 hash bool isAnagram(char* s, char* t) {int array[30];memset(array, 0, sizeof(int) * 30);for (int i 0; s[i] ! \0; i) {array[s[i] - a];}for (int i 0; t[i] ! \0; i) {array[t[i]-a]--;}…

modelsim波形高度异常,值为X

一、问题 波形高度异常&#xff0c;忽高忽低&#xff0c;正常波形高电平和低电平是统一高度的 timescale 1ns/1nsmodule key_test_tb();//parameter define parameter CLK_PERIOD 20; parameter CNT_MAX 25d25; //仅用于仿真,对应 500nsreg sys_clk; //周期 20ns reg d; wir…

刷代码随想录有感(43):遍历N叉树

题干&#xff1a;N叉树的前序遍历、后序遍历、层序遍历。 代码&#xff1a; class Node{//前序遍历N叉树&#xff08;递归实现&#xff09; public:int val;vector<Node*>children;Node(int _val, vector<Node*>_children): val(_val), children(_children){} };…

13.接口自动化学习-Pytest结合Yaml使用

问题&#xff1a;项目自动化测试脚本迭代出现变革技术方案 要求&#xff1a;测试用例从excel–变为yaml用例 注意事项&#xff1a; 1&#xff09;尽可能少改代码 2&#xff09;新技术方案yaml读取&#xff0c;尽可能写成一样的数据返回 [(请求体1,响应数据1),(请求体2,响应数据…

AR模块中通用对账的优化尝试

背景&#xff1a; 用户在唯品会下单后&#xff0c;是可以自由选择不同支付方式进行支付的&#xff0c;支付后&#xff0c;支付系统会将一笔收款单传送给AR&#xff0c;AR财务可以从此处看到收款情况。但是&#xff0c;真实的资金是按照不同支付方式&#xff0c;由银行或者其他渠…

ffmpeg初体验

一&#xff1a;安装 sudo yum install epel-release -y sudo yum update -ysudo rpm --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro sudo rpm -Uvh http://li.nux.ro/download/nux/dextop/el7/x86_64/nux-dextop-release-0-5.el7.nux.noarch.rpmyum -y install …