华科大发布多模态大模型Monkey：低成本扩大输入分辨率，部分性能超越GPT-4V

前言

近年来，基于Transformer架构的多模态大语言模型(MLLM)在视觉理解和多模态推理任务中展现了出色的潜力。但这些模型通常需要大量的训练资源，限制了它们在更广泛研究和应用领域的普及。一种直接的解决方案是使用更小规模的预训练视觉和语言模型，但这往往会导致性能大幅下降。

为了突破这一瓶颈，华中科技大学的研究团队提出了Monkey，这是一种创新的轻量级多模态大模型。Monkey不仅能够低成本地扩大输入分辨率，从而捕捉更细致的视觉细节，而且通过生成多层次的图像描述数据，进一步增强了模型在理解图像-文本关系方面的能力。值得一提的是，Monkey在多项基准测试上的表现不仅优于同等规模的其他MLLM，甚至在某些指标上还超越了规模更大的GPT-4V。

Huggingface模型下载：https://huggingface.co/echo840/Monkey
AI快站模型免费加速下载：https://aifasthub.com/models/echo840

Monkey的创新设计

Monkey的核心创新在于两个方面:

扩大输入分辨率的高效方法:Monkey将输入图像划分为多个固定大小的局部patch，并为每个patch配备独立的视觉编码器，以解决大分辨率输入带来的计算负担。同时，Monkey还采用可训练的视觉重采样器，有效整合了局部和全局的视觉信息。这种设计不仅能够支持高达1344×896的输入分辨率，而且无需从头开始对视觉编码器进行大规模预训练。
生成多层次图像描述的方法:Monkey借助BLIP2、PPOCR、GRIT、SAM和ChatGPT等先进系统，自动生成从整体描述到局部细节的多层次图像说明。这些丰富多样的描述不仅更好地捕捉了图像中的视觉细节，也为模型理解图像内容和与文本的关联提供了更有价值的上下文信息。

通过这两项创新，Monkey在保持模型规模较小的同时，在多项视觉语言理解任务中取得了出色的成绩。

模型性能

Monkey在18个流行的多模态基准测试中表现出色，包括图像描述生成、通用视觉问答、场景文本视觉问答和文档视觉问答等。具体结果如下:

图像描述生成:Monkey在Flickr30K和TextCaps数据集上的表现均优于现有模型，体现了其对视觉细节的出色捕捉能力。
通用视觉问答:Monkey在VQAv2、OKVQA、GQA、ScienceQA和VizWiz等基准测试中平均超越最接近的竞争对手1.62个百分点。
场景文本视觉问答:Monkey在TextVQA、AI2D、STVQA和ESTVQA等数据集上的平均得分比最接近的模型高4.35个百分点，体现了其对复杂场景文本的理解能力。
文档视觉问答:Monkey在DocVQA、ChartQA、InfographicVQA、DeepForm、KLC和WTQ等基准测试中平均超越Qwen-VL 9.77个百分点，充分发挥了其在处理高分辨率文档图像中的优势。