VLM 系列——Llava1.6——论文解读

一、概述

1、是什么

    Llava1.6 是llava1.5 的升级暂时还没有论文等,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。

    本文基于CLIP的视觉编码器,以及多个版本语言解码器,使用最简单的两层FC构成MLP映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM,不同是他们有使用query这种降维方式。

2、亮点

    作者认为的亮点:

    *对比开源模型CogVLM o、 Yi-VL获得更好的性能,赶超商用模型 Gemini Pro 、Qwen-VL-Plus。

    *强大的中文zero-shot能力,虽然训练数据多为英文,但是在MMBench-CN上取得SoTA结果。

    *很低的训消耗:32 GPUs 训练约一天,总共仅仅需要 1.3M数据. 计算和数据消耗仅仅是其他模型的 100-1000分之一。

    *将输入图像分辨率提升4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。

    *通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。

    *更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。

    *使用 SGLang 进行高效部署和推理。

PS

    目前论文、代码、数据、模型还没开源,作者承诺开源,筹备中。后续需要继续更新。

二、模型

    1、模型结构

    主体结构还是lava系,如第一张图,区别在于对于高分辨率图像的处理,如第二章图,将图片分割成几个部分然后拼接送入LLM。

    *图像编码器:CLIP-ViT-L -336px。

    *MLP 投射层:复用LLava1.5权重。

    *文本解码器:Vicuna-1.5-7B、Mistral-7B、Vicuna-1.5-13B、Nous-Hermes-2-Yi-34B。

    

    

    2、模型亮点

    仿照monkey,将高分辨率图像进行拆分拼接,提高高分辨率图像的识别降低幻觉。

    PS

    *这种暴力拼接会导致图片的token比较长,是不是下一步就变成monkey的结构了。

    *现在还没有论文和代码,这里面的分割方式672x672、336x1344、1344x336和 {2×2,1×{2,3,4},{2,3,4}×1}不太一样,最后看是最终怎么实现吧。

三、数据

    1、数据标签

    数据的label构成,主要会涉及到loss计算。

    2、数据构成

     train stage1

    暂时看不到第一阶段数据。

     train stage2

    *高质量的用户指令数据。LAION-GPT-V、ShareGPT-4V和私有数据1.5K。

    *多模态文档 / 图表数据。DocVQA 和 SynDog-EN 替换了 TextCap。添加ChartQA、DVQA 和 AI2D。

    3、数据清洗

     train stage1

    暂时看不到第一阶段数据。

     train stage2

    *高质量的用户指令数据。两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。因此,考虑了两个数据源:现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

    *多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

四、策略

    1、训练过程

两阶段训练。      

    2、推理过程

    推理的时候是不是有后处理等等

五、结果

1、多维度对比。

    与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。

    

2、消融实验

暂无

六、使用方法

暂无

七、待解决

等论文、代码、模型更新。

八、参考链接

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

LLaVA-1.6: Improved reasoning, OCR, and world knowledge | LLaVA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/670145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt PCL学习(一):环境搭建

参考 (QT配置pcl)PCL1.12.1QT5.15.2vs2019cmake3.22.4vtk9.1.0visual studio2019Qt5.15.2PCL1.12.1vtk9.1.0cmake3.22.2 本博客用到的所有资源 版本一览:Visual Studio 2019 Qt 5.15.2 PCL 1.12.1 VTK 9.1.0https://pan.baidu.com/s/1xW7xCdR5QzgS1_d1NeIZpQ?pw…

计算机设计大赛 深度学习+opencv+python实现车道线检测 - 自动驾驶

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数:3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV56 数据集处理7 模型训练8 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 &am…

React+Antd+实现省、市区级联下拉多选组件

1、效果 是你要的效果,咱们继续往下看,搜索面板实现省市区下拉,原本有antd的Cascader组件,但是级联组件必须选到子节点,不能只选省,满足不了页面的需求 2、环境准备 1、react18 2、antd 4 3、功能实现 …

IntelliScraper 更新 --可自定义最大输出和相似度 支持Html的内容相似度匹配

场景 之前我们在使用IntelliScraper 初代版本的时候,不少人和我反馈一个问题,那就是最大输出结果只有50个,而且还带有html内容,不支持自动化,我声明一下,自动化目前不会支持,以后也不会支持&am…

Java集合为什么不能使用foreach删除元素

文章目录 前言foreach为什么不能使用foreach操作ArrayList迭代器解析 前言 相信各位程序猿在开发的过程中都用过foreach循环,简单快捷的遍历集合或者数组,但是在通过foreach进行集合操作的时候就不可以了,这是为什么?这里先把问题…

正点原子-STM32定时器学习笔记(1)未完待续

1. 通用定时器简介(F1为例) F1系列通用定时器有4个,TIM2/TIM3/TIM4/TIM5 主要特性: 16位递增、递减、中心对齐计数器(计数值:0~65535); 16位预分频器(分频系数&#xff…

[晓理紫]AI专属会议截稿时间订阅

AI专属会议截稿时间订阅 关注{晓理紫},每日更新最新AI专属会议信息,如感兴趣,请转发给有需要的同学,谢谢支持!! 如果你感觉对你有所帮助,请关注我,每日准时为你推送最新AI专属会议信…

C语言-4

排序算法简介 /*学习内容:冒泡排序(最基本的排序方法)选择排序(冒泡的优化)插入排序(在合适的位置插入合适的数据) *//*排序分类:1.内部排序待需要进行排序的数据全部存放到内存中&…

[职场] C++开发工程师的岗位职责 #学习方法#笔记

C开发工程师的岗位职责 C开发工程师是利用C语言设计完成软件系统底层模块功能;测试软件模块和软集成产品,进行软件故障的诊断、定位、分析和调试,实施产品测试方案;向业务部门提供软件的后期技术支持。C开发工程师是负责使用C编程…

知识融合前沿技术:构建多模态、公平高效的大规模知识表示

目录 前言1 无监督对齐:构建智能实体关联2 多视角嵌入:提高数据利用效率3 嵌入表示增强:挑战节点相似性,对抗训练解决4 大规模实体对齐:克服模糊性和异构性结论 前言 在信息时代,知识融合成为推动人工智能…

全链游戏的未来趋势与Bridge Champ的创新之路

为了充分探索全链游戏的特点和趋势,以及Bridge Champ如何作为一个创新案例融入这一发展脉络,我们需要深入了解这两者之间的互动和相互影响。全链游戏,或完全基于区块链的游戏,代表了游戏行业的一个重要转型,它们利用区…

kafka-splunk数据通路实践

目的: 鉴于目前网络上没有完整的kafka数据投递至splunk教程,通过本文操作步骤,您将实现kafka数据投递至splunk日志系统 实现思路: 创建kafka集群部署splunk,设置HTTP事件收集器部署connector服务创建connector任务&a…

re:从0开始的CSS学习之路 1. CSS语法规则

0. 写在前面 现在大模型卷的飞起,感觉做页面的活可能以后就不需要人来做了,不知道现在还有没有学前端的必要。。。 1. HTML和CSS结合的三种方式 在HTML中,我们强调HTML并不关心显示样式,样式是CSS的工作,现在就轮到C…

6、基于机器学习的预测

应用机器学习的任何预测任务与这四个策略。 文章目录 1、简介1.1定义预测任务1.2准备预测数据1.3多步预测策略1.3.1多输出模型1.3.2直接策略1.3.3递归策略1.3.4DirRec 策略2、流感趋势示例2.1多输出模型2.2直接策略1、简介 在第二课和第三课中,我们将预测视为一个简单的回归问…

EMNLP 2023精选:Text-to-SQL任务的前沿进展(上篇)——正会论文解读

导语 本文记录了今年的自然语言处理国际顶级会议EMNLP 2023中接收的所有与Text-to-SQL相关(通过搜索标题关键词查找得到,可能不全)的论文,共计12篇,包含5篇正会论文和7篇Findings论文,以下是对这些论文的略…

Redis(三)主从架构、Redis哨兵架构、Redis集群方案对比、Redis高可用集群搭建、Redis高可用集群之水平扩展

转自 极客时间 Redis主从架构 redis主从架构搭建,配置从节点步骤: 1、复制一份redis.conf文件2、将相关配置修改为如下值: port 6380 pidfile /var/run/redis_6380.pid # 把pid进程号写入pidfile配置的文件 logfile "6380.log" …

FPGA解码MIPI视频:Xilinx Artix7-35T低端FPGA,基于MIPI CSI-2 RX Subsystem架构实现,提供工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的 MIPI 编解码方案本方案在Xilinx Artix7-100T上解码MIPI视频的应用本方案在Xilinx Kintex7上解码MIPI视频的应用本方案在Xilinx Zynq7000上解码MIPI视频的应用本方案在Xilinx Zynq UltraScale上解码MIPI视频的应用纯VHDL代码解…

验证码倒计时:用户界面的小细节,大智慧

欢迎来到我的博客,代码的世界里,每一行都是一个故事 验证码倒计时:用户界面的小细节,大智慧 前言为什么需要验证码倒计时防止滥用:用户心理: 设计考量可见性:友好性:适应性&#xff…

打开/关闭请求回显功能的echo命令

echo命令可用来显示或隐藏DOS状态屏幕显示的内容。在*.bat文件第一行加上echo off,以后的屏幕输出命令(包括其他命令产生的提示)都会消失,比如在echo off的下一行使用dir,结果是光标原地闪烁,屏幕无显示。使…

安装PyInstaller的保姆级教程

一、安装PyInstaller之前首先要安装Python,小编这里安装的是Python3.9,目前(2024/2/6)匹配到的最高版本的PyInstaller的版本为6.3.0。需要安装Python的小伙伴可以去这里安装python详细步骤(超详细,保姆级&a…