openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的网络结构体对比

openbmb/MiniCPM-V-2_6和Ovis2作为多模态大模型，在架构设计上既有共性也有显著差异。以下从核心模块、技术实现和任务适配三个维度展开对比分析：

MiniCPM-V-2_6：
- 架构：基于SigLIP-400M轻量级视觉模型，采用ViT架构。
- 处理流程：
  - 输入图像分割为14×14的patch，通过卷积层提取特征。
  - 引入动态视觉tokenizer，支持可变分辨率输入（最大1.8M像素），单图像仅生成640个视觉token，比同类模型减少75%。
  - 视觉特征经Resampler模块压缩后，与文本嵌入拼接进入LLM。
- 创新点：
  - 全局-局部特征融合：通过多尺度卷积和注意力机制，兼顾图像全局语义与局部细节。
  - 低秩矩阵分解：在视觉特征压缩阶段降低计算复杂度，提升端侧推理效率。
Ovis2：
- 架构：采用标准ViT-Base/16作为视觉编码器。
- 处理流程：
  - 图像分割为16×16的patch，生成视觉特征序列。
  - 视觉特征通过动态视觉tokenizer映射到离散视觉单词（vocabulary size=16384），生成概率化视觉token（每个token为16384维概率分布）。
  - 视觉token与文本token嵌入拼接后，输入LLM。
- 创新点：
  - 结构化嵌入对齐：通过视觉单词与文本单词的语义对齐，解决模态间嵌入差异问题。
  - 概率化视觉token：允许视觉特征以软对齐方式参与LLM推理，提升鲁棒性。

MiniCPM-V-2_6：
- 架构：基于Qwen2-7B语言模型，采用MoE架构（稀疏门控机制）。
- 参数规模：7B参数，支持长上下文（32768 tokens）。
- 创新点：
  - 动态位置编码：根据输入文本长度自适应调整位置嵌入。
  - 混合专家层：通过MoE机制提升模型表达能力，同时保持计算效率。
Ovis2：
- 架构：基于Qwen-34B语言模型，采用标准Transformer架构。
- 参数规模：34B参数，支持超长上下文（16384 tokens）。
- 创新点：
  - 多语言对齐：在嵌入层融合多语言语义空间，支持中、英、德等10种语言。
  - 视觉-语言双模态注意力：在Transformer层内增加跨模态注意力头，实现视觉与文本特征的深度交互。

MiniCPM-V-2_6：
- 交互方式：早期融合（Early Fusion）。
  - 视觉特征经Resampler压缩为3584维向量，与文本嵌入（3584维）拼接后输入LLM。
  - LLM内部通过标准自注意力机制处理多模态特征。
- 优势：
  - 计算效率高：视觉特征压缩减少了输入维度，降低计算负载。
  - 端侧适配：轻量化设计（8B总参数）支持手机端实时推理。
Ovis2：
- 交互方式：晚期融合（Late Fusion）。
  - 视觉token与文本token嵌入在输入阶段拼接，输入LLM。
  - LLM内部通过交叉注意力机制（Cross-Attention）实现模态交互，每个Transformer层包含视觉-文本和文本-视觉双向注意力。
- 优势：
  - 模态解耦：视觉与文本特征在LLM内部深度交互，提升复杂推理能力。
  - 灵活性：支持多模态指令微调，适应多样化任务需求。

MiniCPM-V-2_6：
- 四阶段训练：
  1. 视觉编码器预训练：基于10亿级图文对数据。
  2. 跨模态对齐训练：使用RLAIF-V数据集优化多模态交互。
  3. 指令微调：针对单图像、多图像、视频任务进行优化。
  4. 幻觉抑制：通过Object-HAL数据集降低虚假内容生成。
Ovis2：
- 四阶段训练：
  1. 视觉模块冻结训练：固定LLM参数，优化视觉tokenizer。
  2. 多模态对齐训练：使用1.2亿级图文对数据。
  3. 视频理解训练：引入动态视觉-语言对齐机制。
  4. 数学推理增强：通过CodeAlpaca等数学数据集提升CoT能力。