最全 LMM 模型结构(13种)综述本文中我们介绍了 13 中常见的大型多模态模型(Large Multimodal Models, LMM),包括 BLIP-2,LLaVA、MiniGPT、Qwen-VL 以及 Ferret 等。https://mp.weixin.qq.com/s/EnK7F0yPYmXQ-l1L8gp3hQ主要包括两种:
1.基于learnable query的方案,包括:
Perceiver resampler、Q-former、Cross-attention
2.基于投影projection的方案,包括:
单层linear投影、两层mlp