Q:InternLM-XComposer的最新版本把vit的参数量降低了但是效果好了,所以好奇scale up vision encoder的收益大么?还是说重点是一个好的llm?
A:结论是二者同步扩大才会起作用。我们试下来结论是llm 7b情况下,vision太大没啥用,所以clip-l就很好。但是随着llm扩大,比如到了20b以上,同等条件下,vit6b的作用就出来了。我们在mmb的性能基本没咋调就到83+了,比视觉部分更小的llava1.6高很多。
Q:InternVL的论文,除了Qformer改成了llama,视觉编码器变大以外,还有什么和blip2不一样吗?
A:探讨的事情区别很大,一个是开发中间层,链接已有的视觉模型和语言模型;一个是扩宽视觉模型的参数量边界,是从头训练的。
Q:InternVL请问下这里降低Token数量用的是Pixel shuffle,有对比过这个和用Qformer(类似Qwen-VL)哪种更好吗?
A:这里没有做过对比,因为pixel shuffle比较简单就直接用了。如果继续scale up分辨率的话,比如896x896的大小,pixel shuffle就会有1024个image token,而Qwen-VL仍是256个token。从保留图像细节的角度看,pixel shuffle保留的细节信息更多;但从计算量的角度看,Qwen-VL的方式对后续LLM的计算压力更小。
Q:用 Q-Former 的方式训练 VL Connecter 会不会在流程增加了复杂度,如果是参数量的问题,直接把 llava 系列模型中的 MLP VL Connector 换为 6B level 的 transofrmer 是不是就行了,这边有实验这种方法是不是 work 吗?
A:可以看看我们最新的版本啊,我们现在是直接6b + mlp + llm。q- former现在我们不怎么用。
Q:这种visual expert + connection module + LLM的简单粗暴范式真的高效吗?MIT有篇讨论multimodal neuron的论文,作者实验表示通过一个linear projection后获得的表征在进入LLM前没有显著的解释性,模态转换仍然发生在LLM内部,不知道大佬怎么看。
A:直觉感受是视觉特征经过proj以后得到的soft visual token已经是经过高度抽象压缩了,有点类似prefix/prompt tuning代表对应任务的prefix embedding的感觉。
Q:Minigptv2和Qwen-vl太像了吧?
A:这俩模型结构上主要的差别在projection层,MiniGPT-v2用的是mlp,通过pooling的方式减少vision token的数量;qwen-vl用了一层cross-attention。
Q:llava中,OCR能力是怎么学到的?
A:所谓的 emerging properties 吧。本身 visual encoder 和 LLM 的预训练好的模型已经有很好的理解各自domain 数据的能力 (有各自结构化的feature space)。 我们利用 linear projection layer 把它们链接起来,这一步可以认为是 visual tokenization, 把 visual token 嵌入到预训练好的 language model word embedding space里。 而这一步的 image-text feature alignment 极少数据就可以看出不错的能力。
Q:
A:
T1:TextMonkey论文也是发现提高分辨率后会有很多冗余的tonen,然后它也是通过token间相似度来过滤出前50%重要的token,然后通过token resampler聚合,消融实验也比较了直接丢掉的效果。和这个有点像就是了。
T2:分类主干在任何情况下都无法使用,这也说明传统主干网络的语义结构与实际的语言语义差异巨大,如果使用CLIP主干进行传统分类结果应该更好,实际上已经有工作证明是这样的。现在大家都是CLIP+DINO了,一个是与语言对齐过的视觉模型,一个是纯视觉模型。
T3:sigLIP+phi2