多模态模型训练QA

Q:InternLM-XComposer的最新版本把vit的参数量降低了但是效果好了,所以好奇scale up vision encoder的收益大么?还是说重点是一个好的llm?

A:结论是二者同步扩大才会起作用。我们试下来结论是llm 7b情况下,vision太大没啥用,所以clip-l就很好。但是随着llm扩大,比如到了20b以上,同等条件下,vit6b的作用就出来了。我们在mmb的性能基本没咋调就到83+了,比视觉部分更小的llava1.6高很多。

Q:InternVL的论文,除了Qformer改成了llama,视觉编码器变大以外,还有什么和blip2不一样吗?

A:探讨的事情区别很大,一个是开发中间层,链接已有的视觉模型和语言模型;一个是扩宽视觉模型的参数量边界,是从头训练的。

Q:InternVL请问下这里降低Token数量用的是Pixel shuffle,有对比过这个和用Qformer(类似Qwen-VL)哪种更好吗?

A:这里没有做过对比,因为pixel shuffle比较简单就直接用了。如果继续scale up分辨率的话,比如896x896的大小,pixel shuffle就会有1024个image token,而Qwen-VL仍是256个token。从保留图像细节的角度看,pixel shuffle保留的细节信息更多;但从计算量的角度看,Qwen-VL的方式对后续LLM的计算压力更小。

Q:用 Q-Former 的方式训练 VL Connecter 会不会在流程增加了复杂度,如果是参数量的问题,直接把 llava 系列模型中的 MLP VL Connector 换为 6B level 的 transofrmer 是不是就行了,这边有实验这种方法是不是 work 吗?

A:可以看看我们最新的版本啊,我们现在是直接6b + mlp + llm。q- former现在我们不怎么用。

Q:这种visual expert + connection module + LLM的简单粗暴范式真的高效吗?MIT有篇讨论multimodal neuron的论文,作者实验表示通过一个linear projection后获得的表征在进入LLM前没有显著的解释性,模态转换仍然发生在LLM内部,不知道大佬怎么看。

A:直觉感受是视觉特征经过proj以后得到的soft visual token已经是经过高度抽象压缩了,有点类似prefix/prompt tuning代表对应任务的prefix embedding的感觉。

Q:Minigptv2和Qwen-vl太像了吧?

A:这俩模型结构上主要的差别在projection层,MiniGPT-v2用的是mlp,通过pooling的方式减少vision token的数量;qwen-vl用了一层cross-attention。

Q:llava中,OCR能力是怎么学到的?

A:所谓的 emerging properties 吧。本身 visual encoder 和 LLM 的预训练好的模型已经有很好的理解各自domain 数据的能力 (有各自结构化的feature space)。 我们利用 linear projection layer 把它们链接起来,这一步可以认为是 visual tokenization, 把 visual token 嵌入到预训练好的 language model word embedding space里。 而这一步的 image-text feature alignment 极少数据就可以看出不错的能力。

Q:

A:

T1:TextMonkey论文也是发现提高分辨率后会有很多冗余的tonen,然后它也是通过token间相似度来过滤出前50%重要的token,然后通过token resampler聚合,消融实验也比较了直接丢掉的效果。和这个有点像就是了。

T2:分类主干在任何情况下都无法使用,这也说明传统主干网络的语义结构与实际的语言语义差异巨大,如果使用CLIP主干进行传统分类结果应该更好,实际上已经有工作证明是这样的。现在大家都是CLIP+DINO了,一个是与语言对齐过的视觉模型,一个是纯视觉模型。

T3:sigLIP+phi2

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/2246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用AI知识库,优化医保系统售后信息管理流程

在医疗行业中,传统知识库管理虽能整合医疗行业知识,但搜索和管理效率有限,导致医护人员难以高效利用。特别是面对医保系统等复杂系统时,他们常需依赖人工客服或繁琐的电子产品手册解决问题。而HelpLook AI知识库利用AI技术&#x…

中国人民解放军信息支援部队成立

中国人民解放军信息支援部队成立 ----------强化信息化战争能力,维护国家安全 阅读须知: 探索者安全团队技术文章仅供参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作,由于传播、利用本公众号所提供的技术和信息而造成的任何直接或…

基于 Win32 编程,使用 C语言开发一个记事本。

现在 Win32 非常少见,因为太原始了,同时也因为高级语言做应用开发速度更快。但是用 C 语言开发一个 win32 记事本对于理解应用程序运行的内部原理还是很有帮助的,“最基础的就是最有用的”,Windows 编程圣经 《Windows 程序设计》…

HCIP学习笔记

个人学习hcip笔记 供参考 笔记有些乱 之后还会修改完善并添加其他篇幅 OSPF篇 OSPF采用组播方式发送hello包,组播地址为224.0.0.5 相关: 所有节点:224.0.0.1; 所有路由器:224.0.0.2; OSPF DRO发给DR&…

tcp inflight 守恒算法背后的哲学

tcp inflight 守恒拥塞控制的正确性 很久以前我开始纠结 tcp 锯齿,很多年后我知道这叫 capacity-seeking,甚至说 tcp 属于 capacity-seeking protocol 的原因就是它早已深入人心的 aimd 行为,而该行为生成了 tcp 锯齿。 在消除锯齿&#xf…

裸金属服务器和物理机有什么区别

今天,在我们生活的世界中,技术已经彻底改变了我们的生活。在开展在线业务时,服务器在快速高效地执行多项任务方面发挥了极其重要的作用。然而,很多人仍然对裡金属服务器和物理机感到很困惑。今天就给大家分析一下裡金属服务器和物…

算法训练营day15

一、层序遍历 参考链接7.2 二叉树遍历 - Hello 算法 (hello-algo.com) 层序遍历本质上属于广度优先遍历,也称广度优先搜索, BFS通常借助队列的先入先出的特性实现 参考链接102. 二叉树的层序遍历 - 力扣(LeetCode) 像这种较为…

利用技术优化医保购药体验:开发医保购药APP

为了解决线下医保买药繁琐的流程,利用技术优化医保购药体验成为了当务之急。因此,今天小编将为大家详解如何开发一款医保购药APP。 一、背景与意义 购药流程繁琐、耗时、信息不透明等问题日益凸显,亟需一种新的解决方案。开发医保购药APP可以…

【C++】类和对象④(类的默认成员函数:取地址及const取地址重载 | 再谈构造函数:初始化列表,隐式类型转换,缺省值)

🔥个人主页:Forcible Bug Maker 🔥专栏:C 目录 前言 取地址及const取地址操作符重载 再谈构造函数 初始化列表 隐式类型转换 explicit关键字 成员变量缺省值 结语 前言 本篇主要内容:类的六个默认成员函数中…

全网人气排行第一的免费开源ERP:Odoo电商功能应用亮点介绍

Odoo E-Commerce是一款创新型电子商务管理系统,旨在帮助企业建立以客户为中心的B2B与B2C电子商务平台,提高电商业务敏捷性,保障利润,并确保客户体验战略与时俱进。 —— 开源智造Odoo老杨 什么是Odoo免费开源电商管理系统&#xf…

C++:new与delete

hello,各位小伙伴,本篇文章跟大家一起学习《C:new与delete》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 文章目录 :rocket: C内存管理:airplane: 初识new和delete:airplane: new和…

海康智能相机FTP本地存图流程

背景:近期一个新项目需要使用到智能相机,借助智能相机算法直接输出检测结果并将相机图像进行本地化保存和展示。由于申购目标智能相机未到,暂时使用测试智能相机。 目标智能相机型号:海康智能相机MV-SC3050XC 当前测试相机型号…

autodesk系列软件安装错误1603,手动安装Autodesk Desktop Licensing Service之后,启动服务提示错误1067

一般Autodesk Desktop Licensing Service这个服务没安装或者不正常会导致autodesk系列软件安装错误1603或者其他报错。 手动安装Autodesk Desktop Licensing Service之后,启动服务提示错误1067, 解决方法如下 打开autoremove点击扩展功能,输…

基于CAPL的S19文件解析

🍅 我是蚂蚁小兵,专注于车载诊断领域,尤其擅长于对CANoe工具的使用🍅 寻找组织 ,答疑解惑,摸鱼聊天,博客源码,点击加入👉【相亲相爱一家人】🍅 玩转CANoe&…

UDS报文传输的四种帧

ISO14229-1规定了26个诊断服务细节,也就是UDS诊断报文的细节。它只规定了各个服务每个字节的含义,它不关心底层到底是怎么传输的。 ISO15765-2规定了基于CAN总线进行UDS报文传输的细节(包括四种帧)。是在CAN总线传输的情况下&…

掉落回弹问题(C语言)

一、N-S流程图&#xff1b; 二、运行结果&#xff1b; 三、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;float b 100;float sum 0;int i 0;//运算&#xff1b;for (i 1; i < 10; i){//运算&…

力扣HOT100 - 101. 对称二叉树

解题思路&#xff1a; class Solution {public boolean isSymmetric(TreeNode root) {if(root null) return true;return recur(root.left, root.right);}boolean recur(TreeNode L, TreeNode R) {if (L null && R null) return true;if (L null || R null || L.…

前端开发攻略---实现发送手机验证码60s倒计时效果(手机号验证+按钮文字自定义显示+Vue2写法+Vue3写法)

1、演示 2、说明 1、为了便于演示&#xff0c;本示例将在3秒后就再次发送。您可以根据需要自定义此时间间隔。 2、采用最少的变量以满足需求&#xff0c;以减少内存占用。 3、不仅仅局限于按钮情况&#xff0c;也可应用于不禁用按钮的情况&#xff0c;以实现更多的扩展性。 4、…

zkVM选型要点

1. 引言 当选择ZK工具&#xff0c;来做可验证链下计算来扩容区块链时&#xff0c;需考虑&#xff1a; 1&#xff09;为何应选择zkVM&#xff1f;2&#xff09;zkVM有哪些基本功能&#xff1f;3&#xff09;哪些zkVM可提供这些基本功能&#xff1f; 2. 为何应选择zkVM&#x…

大模型培训老师叶梓:通过微调提升小型语言模型的复杂推理能力

在人工智能的快速发展中&#xff0c;复杂推理能力的提升一直是研究者们追求的目标。最近&#xff0c;一项发表在arXiv上的研究成果【1】&#xff0c;提出了一种创新的方法&#xff0c;即通过微调小型语言模型&#xff08;LMs&#xff09;&#xff0c;并将其与大型语言模型&…