最强端侧多模态模型MiniCPM-V 2.5,8B 参数,性能超越 GPT-4V 和 Gemini Pro

前言

近年来,人工智能领域掀起了一股大模型热潮,然而大模型的巨大参数量级和高昂的算力需求,限制了其在端侧设备上的应用。为了打破这一局限,面壁智能推出了 MiniCPM 模型家族,致力于打造高性能、低参数量的端侧模型。近期,面壁智能再次推出了最新一代端侧多模态模型 MiniCPM-Llama3-V 2.5,以 8B 的参数量级,展现出了超越 GPT-4V 和 Gemini Pro 等多模态巨无霸的强大实力。

  • Huggingface模型下载:https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

  • AI快站模型免费加速下载:https://aifasthub.com/models/openbmb

技术特点

MiniCPM-Llama3-V 2.5 拥有以下关键技术特点:

  • 以小博大,参数精简,性能卓越

MiniCPM-Llama3-V 2.5 仅拥有 8B 参数,却在多模态综合性能、OCR 能力、幻觉控制等方面超越了 GPT-4V 和 Gemini Pro 等更大模型,证明了面壁智能在模型压缩和性能优化方面的领先技术。

  • OCR 能力 SOTA,识别精准,效率更高

MiniCPM-Llama3-V 2.5 在 OCRBench 基准测试中取得了 SOTA 成绩,超越了 Claude 3V Opus、Gemini Pro 等标杆模型,展现出强大的 OCR 能力。模型支持高效编码及无损识别 180 万高清像素图片,并支持任意长宽比,甚至能识别 1:9 极限比例图像,突破了传统 OCR 技术只能识别 20 万像素小图的瓶颈。

  • 复杂推理能力强,更懂图像,更会思考

MiniCPM-Llama3-V 2.5 不仅仅能理解图像中的文字,还能深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。例如,面对一张充满繁密字迹的建筑风景图,模型不仅能够识别出《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计。

  • 首次实现端侧系统级加速,效率提升 150 倍

MiniCPM-Llama3-V 2.5 首次实现了端侧系统级多模态加速,在图像编码方面,整合了 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,实现了 150 倍的加速提升。在语言模型推理方面,经过优化,模型在手机端的语言解码速度提升到 3-4 token/s,大幅提升了端侧应用的效率。

  • 支持 30+ 种语言,拥抱世界开源社区

MiniCPM-Llama3-V 2.5 支持 30+ 种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。基于自研的跨语言泛化技术,模型仅通过少量翻译的多模态数据的指令微调,就能对多语言多模态对话性能高效泛化,让全球用户都能享受到端侧多模态技术的便利。

性能优势

MiniCPM-Llama3-V 2.5 在多个方面展现出了优异的性能:

  • 多模态综合性能: 在 OpenCompass 平台上,MiniCPM-Llama3-V 2.5 以 8B 的参数量级,综合性能超越了 GPT-4V 和 Gemini Pro,展现了小模型大潜力的优势。

  • 幻觉控制: 在 Object HalBench 榜单上,MiniCPM-Llama3-V 2.5 的幻觉率大幅降低,再次超越 GPT-4V 和 LLaVA-NeXT-34B,证明了模型在生成可靠、可信答案方面的进步。

  • 空间理解能力: 在 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 的性能仅次于 InternVL-Chat-V1.5 (26B),却依旧超越了 GPT-4V 和 Gemini Pro,展现了模型在处理空间信息方面的能力。

应用场景

MiniCPM-Llama3-V 2.5 在多个领域具有广泛的应用潜力,可以为用户提供更便捷、更具创意的创作体验:

  • 智能手机应用: 可以用于手机上的图像识别、文字识别、问答、语音助手等功能。

  • 智慧家居: 可以用于智能家居设备的图像识别、语音控制、信息查询等功能。

  • 工业应用: 可以用于工业场景的图像识别、故障诊断、安全监控等功能。

  • 医疗领域: 可以用于医学图像分析、诊断辅助等功能。

总结

MiniCPM-Llama3-V 2.5 的发布,标志着端侧多模态模型迈上了新的台阶,它用实力证明了模型参数量级并非衡量性能的唯一指标,小模型也能拥有强大的能力。相信未来 MiniCPM 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

AI快站模型免费加速下载

https://aifasthub.com/models/openbmb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/18417.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】xformers与pytorch的版本对应关系

https://github.com/facebookresearch/xformers/tree/v0.0.23 找tag: tag下面写了对应关系: 安装指令就是: pip install xformers0.0.23 --no-deps -i https://download.pytorch.org/whl/cu118

react ant 表格实现 拖拽排序和多选

项目背景 : react ant 要实现 : 有多选功能(实现批量删除 , 也可以全选) 可以拖拽(可以复制 , 方便顶部的搜索功能) 要实现效果如下 1 这是最初的拖拽功能实现 , 不能复制表格里的内容 , 不符合要求 2 更改了ROW的内容 , 实现了可以复制表格内容 代码 //控制是否可以选中表格…

基于粒子群算法的网络最优节点部署优化matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于粒子群算法的网络最优节点部署优化,实现WSN网络的节点覆盖最大化。 2.测试软件版本以及运行结果展示 MATLAB2022A版本运行 3.核心程序 .................…

Golang | Leetcode Golang题解之第118题杨辉三角

题目&#xff1a; 题解&#xff1a; func generate(numRows int) [][]int {ans : make([][]int, numRows)for i : range ans {ans[i] make([]int, i1)ans[i][0] 1ans[i][i] 1for j : 1; j < i; j {ans[i][j] ans[i-1][j] ans[i-1][j-1]}}return ans }

Notes for video: EDC-Con 2022/01 - EDC Conceptual Overview and Architecture

Eclipse Dataspace Connector 中文概念 Eclipse Dataspace Connector (EDC) 是一个开源项目&#xff0c;旨在提供一种标准化的方法来连接和共享数据空间中的数据。它是 Eclipse Foundation 下的一个项目&#xff0c;目标是促进数据共享和数据交换的互操作性。以下是 EDC 的一些…

【STL库源码剖析】list 简单实现

从此音尘各悄然 春山如黛草如烟 目录 list 的结点设计 list 的迭代器 list 的部分框架 迭代器的实现 容量相关相关函数 实现 insert 在指定位置插入 val 实现 push_back 在尾部进行插入 实现 erase 在指定位置删除 实现 pop_back 在尾部进行删除 实现 list 的头插、头删 实现…

Leetcode3161. 物块放置查询(Go语言的红黑树 + 线段树)

题目截图 题目分析 每次1操作将会分裂成两块区间长度&#xff0c;以最近右端点记录左侧区间的长度即可 因此涉及到单点更新和区间查询 然后左右侧最近端点则使用redBlackTree&#xff0c;也就是python中的sortedlist ac code type seg []int// 把 i 处的值改成 val func (t …

【小呆的力学笔记】连续介质力学的知识点回顾二:应变度量

文章目录 3. 格林应变与阿尔曼西应变 3. 格林应变与阿尔曼西应变 变形体在变形前的线元 O A → \overrightarrow{OA} OA &#xff0c;在变形后变成 o a → \overrightarrow{oa} oa &#xff0c;那么应变应该度量这种线元变形前后的差别。 ∣ o a → ∣ 2 − ∣ O A → ∣ 2 …

OrangePi AIpro开箱评测

开箱评测 有幸受邀参与了CSDN与OrangePi组织的评测活动&#xff0c;今天刚收到快递。拆开快递能看到保护盒、电源、双头typec线这三样&#xff08;充电器和线有保护膜的我先拆掉了&#xff09; 打开保护盒&#xff0c;能看到上下两块黑色海棉包裹的开发板&#xff08;保护得不…

cs61B-sp21 | lab6

cs61B-sp21 | lab6 TODO 1 在 CapersRepository.java 中 static final File CAPERS_FOLDER null; // TODO Hint: look at the join // function in Utils在 Utils.java 我们找到 join 函数&#xff0c;第一个 join 的作用是将 first 和 others 连接起来形成一个路径…

IDEA2024创建maven项目

1、new->project 2、创建后展示 3、生成resources文件夹 4、测试--编写一个hello文件

[书生·浦语大模型实战营]——在茴香豆 Web 版中创建自己领域的知识问答助手

茴香豆是一个基于LLM的领域知识助手&#xff0c;可以用于解答群聊中的问题。接下来是创建过程。 1.打开茴香豆Web版&#xff0c;创建自己的领域库。 地址&#xff1a;茴香豆Web版 这里类似于注册账号&#xff0c;你输入知识库的名称以及密码&#xff0c;然后它就会创建一个知识…

【微服务】部署mysql集群,主从复制,读写分离

两台服务器做如下操作 1.安装mysqldocker pull mysql:5.72.启动以及数据挂载 mkdir /root/mysql/data /root/mysql/log /root/mysql/conf touch my.conf //mysql的配置文件docker run --name mysql \ -e MYSQL_ROOT_PASSWORD123456 \ -v /root/mysql/data:/var/lib/mysql \ -v…

飞睿智能高精度、低功耗测距,无线室内定位UWB芯片如何改变智能家居

在数字化和智能化快速发展的今天&#xff0c;定位技术已经成为我们日常生活中不可或缺的一部分。然而&#xff0c;传统的GPS定位技术在室内环境中往往束手无策&#xff0c;给我们的生活带来了诸多不便。幸运的是&#xff0c;随着科技的不断进步&#xff0c;一种名为UWB&#xf…

智能座舱-车载声学技术训练营

语音交互赋能车载智能终端&#xff0c;成为智能座舱生态构建的核心功能 曾几何时&#xff0c;至少十年前&#xff0c;车内语音交互&#xff0c;大家都认为是“智障”阶段&#xff0c;基本上除了难用作为评价找不到其他的形容词做修饰。 但是随着技术的不断发展&#xff0c;特别…

STM32Cube系列教程11:使用STM32 RNG硬件随机数模块生成彩票号码

文章目录 配置RNG模块编写代码获取生成的随机数运行测试 今天写段代码测试一下STM32U083RC的(RNG)硬件随机数模块 顺便写个小demo生成7位真随机数的彩票号码&#xff0c;帮助那些买彩票还有选择困难症的人群 (doge)(手动狗头)。 全部代码以上传到github&#xff1a;https://gi…

SpringBoot 微服务中怎么获取用户信息 token

SpringBoot 微服务中怎么获取用户信息 token 当我们写了一个A接口&#xff0c;这个接口需要调用B接口&#xff0c;但是B接口需要包含请求头内容&#xff0c;比如需要用户信息、用户id等内容&#xff0c;由于不在同一个线程中&#xff0c;使用ThreadLocal去获取数据是无法获取的…

如何高效测试防火墙的NAT64与ALG应用协议转换能力

在本文开始介绍如何去验证防火墙&#xff08;DUT&#xff09;支持NAT64 ALG应用协议转换能力之前&#xff0c;我们先要简单了解2个比较重要的知识点&#xff0c;即&#xff0c;NAT64和ALG这两个家伙到底是什么&#xff1f; 网络世界中的“翻译官” - NAT64技术 简而言之&…

如何批量提取pdf文件名?批量提取文件夹里的文件名,只要用对方法!

在数字化时代&#xff0c;PDF文件已经成为我们日常工作中不可或缺的一部分。然而&#xff0c;随着PDF文件数量的不断增加&#xff0c;如何高效地管理这些文件成为了一个挑战。批量提取PDF文件名&#xff0c;就是解决这一问题的关键所在。本文将为你介绍几种实用的方法&#xff…

长效IP和短效IP的使用指南分享

随着网络技术的发展&#xff0c;代理IP已经成为许多人在网络活动中不可或缺的工具。 代理IP不仅有助于保护用户的真实IP地址&#xff0c;保护用户的使用隐私&#xff0c;还可以帮助用户提升网络访问的速度等。 然而&#xff0c;在挑选代理IP时&#xff0c;用户常常会面临一个…