openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的网络结构体对比

openbmb/MiniCPM-V-2_6和Ovis2作为多模态大模型,在架构设计上既有共性也有显著差异。以下从核心模块、技术实现和任务适配三个维度展开对比分析:

一、核心模块架构对比

1. 视觉编码器
  • MiniCPM-V-2_6

    • 架构:基于SigLIP-400M轻量级视觉模型,采用ViT架构。
    • 处理流程
      • 输入图像分割为14×14的patch,通过卷积层提取特征。
      • 引入动态视觉tokenizer,支持可变分辨率输入(最大1.8M像素),单图像仅生成640个视觉token,比同类模型减少75%。
      • 视觉特征经Resampler模块压缩后,与文本嵌入拼接进入LLM。
    • 创新点
      • 全局-局部特征融合:通过多尺度卷积和注意力机制,兼顾图像全局语义与局部细节。
      • 低秩矩阵分解:在视觉特征压缩阶段降低计算复杂度,提升端侧推理效率。
  • Ovis2

    • 架构:采用标准ViT-Base/16作为视觉编码器。
    • 处理流程
      • 图像分割为16×16的patch,生成视觉特征序列。
      • 视觉特征通过动态视觉tokenizer映射到离散视觉单词(vocabulary size=16384),生成概率化视觉token(每个token为16384维概率分布)。
      • 视觉token与文本token嵌入拼接后,输入LLM。
    • 创新点
      • 结构化嵌入对齐:通过视觉单词与文本单词的语义对齐,解决模态间嵌入差异问题。
      • 概率化视觉token:允许视觉特征以软对齐方式参与LLM推理,提升鲁棒性。
2. 文本编码器
  • MiniCPM-V-2_6

    • 架构:基于Qwen2-7B语言模型,采用MoE架构(稀疏门控机制)。
    • 参数规模:7B参数,支持长上下文(32768 tokens)。
    • 创新点
      • 动态位置编码:根据输入文本长度自适应调整位置嵌入。
      • 混合专家层:通过MoE机制提升模型表达能力,同时保持计算效率。
  • Ovis2

    • 架构:基于Qwen-34B语言模型,采用标准Transformer架构。
    • 参数规模:34B参数,支持超长上下文(16384 tokens)。
    • 创新点
      • 多语言对齐:在嵌入层融合多语言语义空间,支持中、英、德等10种语言。
      • 视觉-语言双模态注意力:在Transformer层内增加跨模态注意力头,实现视觉与文本特征的深度交互。
3. 跨模态交互模块
  • MiniCPM-V-2_6

    • 交互方式:早期融合(Early Fusion)。
      • 视觉特征经Resampler压缩为3584维向量,与文本嵌入(3584维)拼接后输入LLM。
      • LLM内部通过标准自注意力机制处理多模态特征。
    • 优势
      • 计算效率高:视觉特征压缩减少了输入维度,降低计算负载。
      • 端侧适配:轻量化设计(8B总参数)支持手机端实时推理。
  • Ovis2

    • 交互方式:晚期融合(Late Fusion)。
      • 视觉token与文本token嵌入在输入阶段拼接,输入LLM。
      • LLM内部通过交叉注意力机制(Cross-Attention)实现模态交互,每个Transformer层包含视觉-文本和文本-视觉双向注意力。
    • 优势
      • 模态解耦:视觉与文本特征在LLM内部深度交互,提升复杂推理能力。
      • 灵活性:支持多模态指令微调,适应多样化任务需求。

二、技术实现对比

1. 视觉处理
维度MiniCPM-V-2_6Ovis2
图像分辨率支持1344×1344(1.8M像素)支持1024×1024
视觉token数量640 tokens(固定)768 tokens(可动态调整)
特征压缩方式低秩矩阵分解(Resampler)离散视觉单词映射(概率化token)
视频处理支持关键帧选择(采样12帧)支持全视频输入(处理128帧)
2. 文本处理
维度MiniCPM-V-2_6Ovis2
语言支持中、英、德、法等6种语言中、英、德、法、日、韩等10种语言
上下文长度32768 tokens16384 tokens
推理速度(端侧)18 tokens/s(8B模型,INT4量化)8 tokens/s(34B模型,FP16)
3. 训练策略
  • MiniCPM-V-2_6
    • 四阶段训练
      1. 视觉编码器预训练:基于10亿级图文对数据。
      2. 跨模态对齐训练:使用RLAIF-V数据集优化多模态交互。
      3. 指令微调:针对单图像、多图像、视频任务进行优化。
      4. 幻觉抑制:通过Object-HAL数据集降低虚假内容生成。
  • Ovis2
    • 四阶段训练
      1. 视觉模块冻结训练:固定LLM参数,优化视觉tokenizer。
      2. 多模态对齐训练:使用1.2亿级图文对数据。
      3. 视频理解训练:引入动态视觉-语言对齐机制。
      4. 数学推理增强:通过CodeAlpaca等数学数据集提升CoT能力。

三、任务适配与性能对比

任务类型MiniCPM-V-2_6优势场景Ovis2优势场景
单图像理解高分辨率图像OCR(准确率92.3%)复杂图像推理(如数学公式解析)
多图像理解多图像对比分析(Mantis-Eval榜单第一)多图像故事生成(Blink榜单第一)
视频理解实时视频字幕生成(18 FPS)长视频内容摘要(30分钟视频处理)
数学推理基础数学问题(MathVerse榜单82.5%)微积分、几何证明(MathVerse榜单91.2%)
端侧部署手机端实时推理(6GB内存)服务器端复杂任务(32GB显存)

四、总结

维度MiniCPM-V-2_6Ovis2
核心定位端侧多模态大模型(8B参数)全场景多模态大模型(34B参数)
技术亮点低秩特征压缩、动态视觉tokenizer概率化视觉token、跨模态交叉注意力
适用场景移动端实时交互(如智能客服、内容审核)复杂推理任务(如教育、科研)
性能指标OpenCompass平均分65.2(8B模型)OpenCompass平均分72.1(34B模型)
生态支持支持Hugging Face、OpenVINO支持Hugging Face、DeepSpeed

两者在架构设计上的差异反映了不同的技术路线:MiniCPM-V-2_6通过轻量化设计和端侧优化,在边缘设备上实现了接近GPT-4V的性能;而Ovis2则通过深度跨模态交互和大规模参数,在复杂推理任务中表现出更强的能力。开发者可根据具体应用场景(端侧/云端、实时性/准确性)选择合适的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/76438.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙学习笔记(5)-HTTP请求数据

一、Http请求数据 http模块是鸿蒙内置的一个模块,提供了网络请求的能力。不需要再写比较原始的AJAS代码。 ps:在项目中如果要访问网络资源,不管是图片文件还是网络请求,必须给项目开放权限。 (1)网络连接方式 HTTP数…

使用Redis5.X部署一个集群

文章目录 1.用Redis5.x来创建Cluste2. 查看节点信息 nodes3. 添加节点 add-node4.删除节点 del-node5.手动指定从节点 replicate6.检查集群健康状态 check 建议使用5.x版本。 首先,下载Redis,根据自己的环境选择版本。 一键启动Redis集群文件配置。 ech…

实现窗口函数

java 实现窗口函数 public class SlidingWin {public static void main(String[] args) {SlidingWin slidingWin = new SlidingWin();double v = slidingWin.SlidWin(2);System.out.println(v);}public double SlidWin(int k){int [] array =new int[]{2,4,5,6,9,10,12,23,1,…

Docker Compose 命令实现动态构建和部署

Docker Compose 命令实现动态构建和部署 一、编写支持动态版本号的 docker-compose.yml version: 3.8services:myapp:build: context: . # Dockerfile所在目录args:APP_VERSION: ${TAG:-latest} # 从环境变量获取版本号,默认latestimage: myapp:${TAG:-latest} …

AI时代下 你需要和想要了解的英文缩写含义

在AI智能时代下,越来愈多的企业都开始重视并应用以及开发AI相关产品,这个时候都会或多或少的涉及到英文,英文还好,但是如果是缩写,如果我们没有提前了解过,我们往往很难以快速Get到对方的意思。在这里&…

聊聊Doris的数据模型,如何用结构化设计解决实时分析难题

传统 OLAP 系统的局限 在大数据实时分析领域,数据模型设计直接决定了系统的查询性能、存储效率与业务适配性。Apache Doris作为新一代MPP分析型数据库,通过独创的多模型融合架构,在业内率先实现了"一份数据支持多种分析范式"的能力…

基于vue框架的点餐系统设计及实现w93q6(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 项目功能:用户,菜品分类,菜品信息,配送员,订单信息,配送进度,评价记录 开题报告内容 基于 Vue 框架的点餐系统设计及实现开题报告 一、研究背景与意义 (一)研究背景 在当今快节奏的生活中,网上订餐已成为人…

LeetCode 2563.统计公平数对的数目:排序 + 二分查找

【LetMeFly】2563.统计公平数对的数目:排序 二分查找 力扣题目链接:https://leetcode.cn/problems/count-the-number-of-fair-pairs/ 给你一个下标从 0 开始、长度为 n 的整数数组 nums ,和两个整数 lower 和 upper ,返回 公平…

CF1016赛后总结

文章目录 前言T1:Ideal GeneratorT2:Expensive NumberT3:Simple RepetitionT4:Skibidi TableT5:Min Max MEXT6:Hackers and Neural NetworksT7:Shorten the Array 前言 由于最近在半期考试,更新稍微晚了一点,还望大家见谅 &#…

HFSS3(limy)——建模学习记录

前言——笔者使用的是21版HFSS 1.基本模型 为什么没有环形的天线 2.创建基本模型方法 常用:先粗略建好模型再编辑输入准确坐标和大小尺寸(这里长方体起始点是左上角下方的点,也就是说要输入模型起点相对于坐标原点的位置尺寸就可以确定具体…

API网关的作用?企业如何应用API网关?

一、API网关的用处 API网关我的分析中会用到以下三种场景。 1、Open API 企业需要将自身数据、能力等作为开发平台向外开放,通常会以rest的方式向外提供。最好的例子就是淘宝开放平台、腾讯公司的QQ开发平台、微信开放平台。 Open API开放平台必然涉及到客户应用…

国网B接口协议图像数据上报通知接口流程详解以及上报失败原因(电网B接口)

文章目录 一、B接口协议图像数据上报通知接口介绍B.13.1 接口描述B.13.2 接口流程B.13.3 接口参数B.13.3.1 SIP头字段B.13.3.2 SIP响应码B.13.3.3 XML Schema参数定义 B.13.4 消息示例B.13.4.1 图像数据上报请求B.13.4.2 图像数据上报响应 二、B接口图像数据上报通知失败常见问…

springAi---智能客服

首先被取代的是客服类,智能客服机器人都能够高效地完成任务。 spring Ai 大模型应用相关开发demo,智能客服系统; 在需求分析阶段,把功能属于传统Java处理的和ai的功能进行分离 梳理为流程图如下: 在大模型中&#…

Java面试(2025)——基础

Java语言有哪些特点? Java语言具有多个显著特点,使其在编程领域广受欢迎。首先,Java的跨平台性非常强,通过Java虚拟机(JVM)实现“编写一次,随处运行”,使得开发者能够在不同操作系统…

Linux压缩与解压命令完全指南:tar.gz、zip等格式详解

Linux压缩与解压命令完全指南:tar.gz、zip等格式详解 在Linux系统中,文件压缩和解压是日常操作中不可或缺的一部分。本文将全面介绍Linux下常用的压缩和解压命令,包括tar.gz、tar、zip等格式的区别和使用方法,帮助你高效管理文件…

C++ STL 环形队列模拟实现

C STL 环形队列模拟实现 下面是一个使用C STL实现的环形队列&#xff08;Circular Queue&#xff09;的完整示例&#xff1a; #include <iostream> #include <vector> #include <stdexcept>template <typename T> class CircularQueue { private:std…

部署rocketmq集群

容器化部署RocketMQ5.3.1集群 背景: 生产环境单机的MQ不具有高可用,所以我们应该部署成集群模式,这里给大家部署一个双主双从异步复制的Broker集群 一、安装docker yum install -y docker systemctl enable docker --now # 单机部署参考: https://www.cnblogs.com/hsyw/p/1…

mysql的函数(第一期)

一、字符串函数​​ 处理文本数据&#xff0c;常用函数&#xff1a; ​​CONCAT(str1, str2, ...)​​ ​​作用​​&#xff1a;拼接字符串。​​示例​​&#xff1a;SELECT CONCAT(Hello, , World); → Hello World​​注意​​&#xff1a;若任一参数为 NULL&#xff0c;…

Linux下的网络管理

注意&#xff1a;本文使用的Linux系统版本为Red Hat Enterprise Linux 9 (RHEL 9)。 在RHEL9上&#xff0c;使用NM&#xff08;NetworkManager&#xff09;进行网络配置&#xff0c;ifcfg &#xff08;也称为 文件&#xff09;将不再是网络配置文件的主存储。虽然 ifcfg 样式仍…

游戏引擎学习第233天

原地归并排序地方很蒙圈 game_render_group.cpp&#xff1a;注意当前的SortEntries函数是O(n^2)&#xff0c;并引入一个提前退出的条件 其实我们不太讨论这些话题&#xff0c;因为我并没有深入研究过计算机科学&#xff0c;所以我也没有太多内容可以分享。但希望在过去几天里…