华科大发布多模态大模型Monkey:低成本扩大输入分辨率,部分性能超越GPT-4V

前言

近年来,基于Transformer架构的多模态大语言模型(MLLM)在视觉理解和多模态推理任务中展现了出色的潜力。但这些模型通常需要大量的训练资源,限制了它们在更广泛研究和应用领域的普及。一种直接的解决方案是使用更小规模的预训练视觉和语言模型,但这往往会导致性能大幅下降。

为了突破这一瓶颈,华中科技大学的研究团队提出了Monkey,这是一种创新的轻量级多模态大模型。Monkey不仅能够低成本地扩大输入分辨率,从而捕捉更细致的视觉细节,而且通过生成多层次的图像描述数据,进一步增强了模型在理解图像-文本关系方面的能力。值得一提的是,Monkey在多项基准测试上的表现不仅优于同等规模的其他MLLM,甚至在某些指标上还超越了规模更大的GPT-4V。

  • Huggingface模型下载:https://huggingface.co/echo840/Monkey

  • AI快站模型免费加速下载:https://aifasthub.com/models/echo840

Monkey的创新设计

Monkey的核心创新在于两个方面:

  • 扩大输入分辨率的高效方法:Monkey将输入图像划分为多个固定大小的局部patch,并为每个patch配备独立的视觉编码器,以解决大分辨率输入带来的计算负担。同时,Monkey还采用可训练的视觉重采样器,有效整合了局部和全局的视觉信息。这种设计不仅能够支持高达1344×896的输入分辨率,而且无需从头开始对视觉编码器进行大规模预训练。

  • 生成多层次图像描述的方法:Monkey借助BLIP2、PPOCR、GRIT、SAM和ChatGPT等先进系统,自动生成从整体描述到局部细节的多层次图像说明。这些丰富多样的描述不仅更好地捕捉了图像中的视觉细节,也为模型理解图像内容和与文本的关联提供了更有价值的上下文信息。

通过这两项创新,Monkey在保持模型规模较小的同时,在多项视觉语言理解任务中取得了出色的成绩。

模型性能

Monkey在18个流行的多模态基准测试中表现出色,包括图像描述生成、通用视觉问答、场景文本视觉问答和文档视觉问答等。具体结果如下:

  • 图像描述生成:Monkey在Flickr30K和TextCaps数据集上的表现均优于现有模型,体现了其对视觉细节的出色捕捉能力。

  • 通用视觉问答:Monkey在VQAv2、OKVQA、GQA、ScienceQA和VizWiz等基准测试中平均超越最接近的竞争对手1.62个百分点。

  • 场景文本视觉问答:Monkey在TextVQA、AI2D、STVQA和ESTVQA等数据集上的平均得分比最接近的模型高4.35个百分点,体现了其对复杂场景文本的理解能力。

  • 文档视觉问答:Monkey在DocVQA、ChartQA、InfographicVQA、DeepForm、KLC和WTQ等基准测试中平均超越Qwen-VL 9.77个百分点,充分发挥了其在处理高分辨率文档图像中的优势。

此外,Monkey在MME多模态评测基准中的感知得分达到1505.3,位列第二,展现了其在综合多模态理解方面的出色表现。

通过定性比较,我们发现Monkey在生成详细图像描述方面明显优于GPT-4V,能够捕捉到更多视觉细节和对象关系。在回答包含大量文本信息的问题时,Monkey也显示出了强大的性能,超越了GPT-4V。

局限性与未来展望

尽管Monkey取得了显著的成果,但仍然存在一些局限性。目前Monkey只能处理最多6个图像patch,受限于语言模型的输入长度。未来可以探索更高效的patch处理方法,进一步提升输入分辨率。

另外,Monkey的多层次描述生成能力仍局限于图像内容的描述,无法识别图像所在的位置信息等更广泛的上下文信息。未来可以进一步扩展描述的范围,增强Monkey在复杂场景理解方面的能力。

总的来说,Monkey体现了通过创新的模型设计和高质量数据优化,轻量级多模态模型也能实现超越大型MLLM的出色性能。华科大研究团队将持续推动Monkey及相关技术的发展,为多模态学习领域带来更多突破。

模型下载

Huggingface模型下载

https://huggingface.co/echo840/Monkey

AI快站模型免费加速下载

https://aifasthub.com/models/echo840

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Harmony鸿蒙南向驱动开发-MIPI CSI

CSI(Camera Serial Interface)是由MIPI联盟下Camera工作组指定的接口标准。CSI-2是MIPI CSI第二版,主要由应用层、协议层、物理层组成,最大支持4通道数据传输、单线传输速度高达1Gb/s。 物理层支持HS(High Speed&…

UVA12538 Version Controlled IDE 题解 crope

Version Controlled IDE 传送门 题面翻译 维护一种数据结构,资磁三种操作。 1.在p位置插入一个字符串s 2.从p位置开始删除长度为c的字符串 3.输出第v个历史版本中从p位置开始的长度为c的字符串 1 ≤ n ≤ 50000 1 \leq n \leq 50000 1≤n≤50000,所…

【案例分享】如何通过甘特图管理项目进度?

我将通过一个实际案例来具体说明我是如何通过甘特图来管理项目进度的。 案例背景: 我负责过一个软件开发项目:一款在线学习APP。项目团队包括项目经理、开发人员、测试人员、UI设计师等多个角色,预计项目周期为6个月。 案例实施过程&…

使用阿里云试用Elasticsearch学习:4. 聚合——1

在这之前,本书致力于搜索。 通过搜索,如果我们有一个查询并且希望找到匹配这个查询的文档集,就好比在大海捞针。 通过聚合,我们会得到一个数据的概览。我们需要的是分析和总结全套的数据而不是寻找单个文档: 在大海里…

vue快速入门(十二)v-key索引标志

注释很详细&#xff0c;直接上代码 上一篇 新增内容 v-key的使用场景数组筛选器的使用 源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, i…

【Redis】持久化

文章目录 一、RDB1.1、RDB的自动备份与手动备份1.1.1、自动备份1.1.2、手动备份 1.2、RDB优点1.3、RDB缺点1.4、RDB快照1.5、RDB优化配置项 二、AOF2.1、AOF工作流程2.2、AOF写回策略2.3、MP-AOF实现2.4、AOF优缺点2.5、AOF重写机制 三、RDBAOF混合持久化3.1、数据恢复顺序和加…

【JavaSE】接口 详解(下)

前言 欢迎关注个人主页&#xff1a;逸狼 创造不易&#xff0c;可以点点赞吗~ 如有错误&#xff0c;欢迎指出~ 目录 前言 接口实例运用 代码举例理解 比较对象的年龄 比较对象的姓名 利用冒泡排序实现Array.sort 年龄比较器 姓名比较器 比较示例测试 clone接口 浅拷贝和深拷贝 浅…

C语言 | Leetcode C语言题解之第17题电话号码的字母组合

题目&#xff1a; 题解&#xff1a; char phoneMap[11][5] {"\0", "\0", "abc\0", "def\0", "ghi\0", "jkl\0", "mno\0", "pqrs\0", "tuv\0", "wxyz\0"};char* digits…

BERT论文解读及情感分类实战

文章目录 简介BERT文章主要贡献BERT模型架构技术细节任务1 Masked LM&#xff08;MLM&#xff09;任务2 Next Sentence Prediction (NSP)模型输入 下游任务微调GLUE数据集SQuAD v1.1 和 v2.0NER 情感分类实战IMDB影评情感数据集数据集构建模型构建超参数设置训练结果注意事项 简…

系统架构最佳实践 -- 智慧图书管理系统架构设计

随着数字化时代的到来&#xff0c;智慧图书管理系统在图书馆和机构中扮演着重要的角色。一个优秀的图书管理系统不仅需要满足基本的借阅管理需求&#xff0c;还需要具备高效的性能、良好的扩展性和稳定的安全性。本文将讨论智慧图书管理系统的架构设计与实现&#xff0c;以满足…

Debian安装1panel管理面板教程-最新

1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。 1Panel面板是一个强大的服务器管理工具&#xff0c;它通过提供一站式管理、易于使用的界面、高度的可定制性、安全可靠的性能、强大的扩展性以及活跃的社区支持&#xff0c;为用户提供了一个高效、便捷的管理解决方案…

test4101

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和…

featup入坑笔记

一、新建环境 在conda中建立一个虚拟环境featup&#xff0c; conda create -n featup python3.9 二、开始配置&#xff1a; 我是先下载了FeatUp&#xff0c;之后 pip install -e . -i https://mirrors.aliyun.com/pypi/simple/ 但是&#xff0c;突然出错了&#xff0c;说无法…

记Kubernetes(k8s):访问 Prometheus UI界面:Warning: Error fetching server time

记Kubernetes&#xff08;k8s&#xff09;&#xff1a;访问 Prometheus UI界面:Warning: Error fetching server time 1、报错详情2、解决3、再次访问 PrometheusUI界面 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 1、报错详情 Warning:…

软件杯 深度学习人体跌倒检测 -yolo 机器视觉 opencv python

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习的人体跌倒检测算法研究与实现 ** 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f947;学长这里给一个题目综合评分(每项满…

视频插针调研

视频插针 1、评估指标2、准确度3、实时4、视频流处理3、实时RIFE视频插帧测试 1、评估指标 参考&#xff1a;https://blog.csdn.net/weixin_43478836/article/details/104159648 https://blog.csdn.net/weixin_43605641/article/details/118088814 PSNR和SSIM PSNR数值越大表…

Opencv驱动摄像头

Opencv驱动摄像头&#xff0c;此段代码只能驱动电脑自带摄像头&#xff0c;目前没有分析出为何不能驱动另外连接的相机&#xff01; #include<iostream> #include<opencv2\core.hpp> #include<opencv2\highgui.hpp> #include<opencv2\imgproc.hpp> #i…

ubuntu下NTFS分区无法访问挂载-解决办法!

Ubuntu系统下&#xff0c;有的时候发现&#xff0c;挂载的NTFS文件系统硬盘无法访问。点击弹出类似问题&#xff1a; Error mounting /dev/sda1 at /media/root/新加卷: Command-line mount -t "ntfs" -o "uhelperudisks2,nodev,nosuid,uid0,gid0" "/…

【攻防世界】mfw(.git文件泄露)

首先进入题目环境&#xff0c;检查页面、页面源代码、以及URL&#xff1a; 发现页面无异常。 使用 dirsearch 扫描网站&#xff0c;检查是否存在可访问的文件或者文件泄露&#xff1a; 发现 可访问界面/templates/ 以及 .git文件泄露&#xff0c;故使用 GItHack 来查看泄露的 …

状态模式(行为型)

目录 一、前言 二、状态模式 三、总结 一、前言 状态模式(State Pattern&#xff09;是一种行为型设计模式&#xff0c;它允许一个对象在其内部状态改变时改变它的行为。对象看起来好像修改了它的类&#xff0c;但实际上&#xff0c;由于状态模式的引入&#xff0c;行为的变…