探索高效和轻量级多模态大语言模型的奥秘

过去一年,多模态大语言模型(MLLM)在视觉问答、视觉理解和推理等任务中表现出色。然而,模型的庞大尺寸和训练推理的高成本限制了其在学术界和工业界的广泛应用。因此,研究高效和轻量级的MLLM具有重要意义,尤其是在边缘计算场景中。来自来自于腾讯、上海交通大学、北京人工智能研究院、华东师范大学等机构的研究人员联合撰写了《Efficient Multimodal Large Language Models: A Survey》,论文对高效多模态大语言模型的相关研究进行了系统性回顾,并对该领域的未来发展方向进行了展望。
在这里插入图片描述

在这里插入图片描述

1、引言

随着人工智能技术的飞速发展,大型预训练语言模型在自然语言处理领域取得了令人瞩目的成就。这些模型能够理解和生成复杂的文本,展现出强大的语言能力。然而,随着模型规模的不断扩大,其计算成本也急剧增加,给实际应用带来了挑战。因此,研究如何提高大型语言模型的效率,使其能够在更短的时间内处理更多的任务,成为了当前研究的热点。

在这里插入图片描述

本文旨在对高效多模态大型语言模型的研究进展进行全面的综述,以期为相关领域的研究者提供有益的参考。

在这里插入图片描述

在这里插入图片描述

2、架构

2.1 视觉编码器(Vision Encoder)

图片

主流模型继续使用CLIP预训练的视觉编码器,如ViT等,以实现语义对齐。

一些研究采用了多个视觉编码器,以捕获更丰富的视觉表示。

一些研究采用了更轻量级的视觉编码器,例如ViTamin和Cobra等,以减少计算复杂度。

2.2 视觉-语言项目器(Vision-Language Projector)

在这里插入图片描述

主流方法包括MLP和Attention-based,其中Attention-based方法如Q-Former和MEQ-Former。

一些研究采用了CNN-based方法,如MobileVLMv2的LDPv2。

图片

一些研究采用了混合结构,例如Honeybee的C-Abstractor和D-Abstractor。

2.3 小语言模型(Small Language Model)

主流方法使用参数规模小于3B的小语言模型,如phi2-2.7B和Gemma-2B。

一些研究采用自训练的小语言模型,如MobileVLM的LLaMA。

一些研究通过模型缩放降低参数规模,例如phi2和phi3-mini。

2.4 视觉标记压缩(Vision Token Compression)

图片

一些研究采用了多视图输入,如LLaVA-UHD。

一些研究采用了视觉标记处理方法,如LLaVA-PruMerge和MADTP。

一些研究采用了多尺度信息融合,如Mini-Gemini。

一些研究采用了视觉专家代理,如P2G。

一些研究采用了视频特定方法,如Video-LLaVA。

图片

2.5 高效结构(Efficient Structures)

在这里插入图片描述

主要方向包括Mixture-of-Experts、Mamba和Inference Acceleration

主流的MoE方法包括MoE-LLaVA和MM1。

主流的Mamba方法包括Cobra和VL-Mamba。

主流的Inference Acceleration方法包括SPD、FastV和VTW。

3 Efficient Vision

Efficient Vision部分主要介绍了用于高效多模态大语言模型的视觉编码方法,具体内容如下:

图片

Compact Architecture

介绍了三种构建高效视觉模型的方法,包括架构设计、架构搜索和注意力机制优化。其中:

  • • 架构设计方法可以通过调整现有架构或创建新架构来实现高效性,例如使用可逆残差层和局部敏感哈希等技术。
  • • 架构搜索方法则利用神经架构搜索算法来发现适合特定任务或约束的紧凑架构。
  • • 注意力机制优化方法则通过引入自适应注意力、学习稀疏注意力模式和动态调整注意力机制等方式来降低计算复杂度。

Pruning

介绍了三种剪枝方法,包括非结构化剪枝、结构化剪枝和混合剪枝

  • • 非结构化剪枝是指对单个权重进行剪枝,而不考虑其在模型中的结构安排。
  • • 结构化剪枝是指根据预定义的标准来剪枝结构组件,例如注意力头或层。
  • • 混合剪枝则是结合了非结构化和结构化剪枝的方法。

图片

Knowledge Distillation

介绍了两种知识蒸馏方法,包括同构和异构知识蒸馏

  • • 同构知识蒸馏是指将大型模型的知识传递到小型模型中,而保持模型架构相同。
  • • 异构知识蒸馏是指将知识从不同架构的模型中传递到另一个模型中。

Quantization

介绍了四种量化方法,包括后训练量化、量化感知训练、硬件感知量化和二值化

  • • 后训练量化是指在训练完成后对模型进行量化,以减少参数数量和计算量。
  • • 量化感知训练是指在训练过程中引入量化操作,以提高模型对量化的鲁棒性。
  • • 硬件感知量化是指根据特定硬件平台的特性来优化量化过程,以提高性能和效率。
  • • 二值化是指将模型的参数二值化为0或1,以进一步减少参数数量和计算量。

4 Efficient LLMs

Efficient LLMs部分主要介绍了提高大语言模型效率的方法,具体内容如下:

图片

Attention

介绍了多种提高注意力机制效率的方法,包括共享注意力、特征信息减少、近似注意力等。其中:

  • • 共享注意力通过共享计算资源来加速注意力计算,例如LLaMA-2模型使用的GQA技术。
  • • 特征信息减少通过减少输入特征的数量来降低计算复杂度,例如Funnel-Transformer和Set Transformer模型。
  • • 近似注意力通过使用低维空间中的核函数或低秩矩阵来近似注意力计算,例如Linformer和Performer模型。

图片

Framework

介绍了多种提高大语言模型效率的框架,包括混合专家模型、Transformer替代结构、状态空间模型等。其中:

  • • 混合专家模型将大模型分解为多个小模型,每个小模型专注于学习输入数据的一部分,从而提高效率。
  • • Transformer替代结构通过使用其他结构来替代Transformer,例如RWKV和Mamba模型,从而提高效率。
  • • 状态空间模型通过将输入数据映射到低维状态空间中,从而提高效率。

图片

Fine-Tuning

介绍了多种提高大语言模型微调效率的方法,包括参数高效微调、全参数微调等。其中:

  • • 参数高效微调通过引入轻量级适配器模块来减少微调参数的数量,从而提高效率。
  • • 全参数微调通过更新预训练模型的所有参数来实现最优性能,但需要更多的计算资源。

5 Training

Training部分主要介绍了高效多模态大语言模型的训练方法,具体内容如下:

Pre-Training

介绍了预训练的重要性和目标,以及常见的预训练数据集。

  • • 预训练的主要目标是促进不同模态的融合,并传达全面的知识。
  • • 常见的预训练数据集包括CC3M、CC12M、SBU、LAION-5B、LAION-COCO、COYO、COCO Caption、CC595k、RefCOCO、DocVQA、LLava-1.5-PT、ShareGPT4V-PT和Bunny-pretrain-LAION-2M。

在这里插入图片描述

Instruction-Tuning

介绍了指令调优的重要性和方法,以及常见的指令调优数据集。

  • • 指令调优的主要目标是使模型能够理解和遵循自然语言指令,从而提高其在特定任务上的性能。
  • • 常见的指令调优数据集包括LLaVA’s IT、MobileVLM、ShareGPT4V’s IT、LLaVA-1.5’s IT、LRV-Instruct、LVIS-INSTRUCT-4V、LAION GPT4V、MiniGPT-4’s IT、SVIT、Bunny-695K、GQA、VQAv2、VQAT、GQA、SQAI、VizWiz、MMMU、MathV、MMEP、MMEC、MMB、SEED、POPE、LLAVAW和MM-Vet。

在这里插入图片描述

Diverse Training Steps

介绍了多种训练步骤的优化方法,包括单阶段训练、预对齐阶段的必要性、不同数据集的融合以及多任务学习。

  • • 单阶段训练可以减少训练时间和计算成本,
  • • 预对齐阶段可以提高模型的性能和泛化能力
  • • 不同数据集的融合可以提高模型的多样性和适应性
  • • 多任务学习可以提高模型的性能和泛化能力。

Parameter Efficient Transfer Learning

介绍了参数高效转移学习的重要性和方法,以及常见的参数高效转移学习技术。

  • • 参数高效转移学习的主要目标是在不损失性能的情况下,减少模型的参数数量和计算量。
  • • 常见的参数高效转移学习技术包括LoRA、(IA)3、LoRA-FA、DyLoRa、LLM-Adapters、Full-Parameter fine-tuning、Unsupervised learning和Reinforcement learning。

6 Data and Benchmarks

这部分介绍了用于训练和评估高效多模态大语言模型的数据和基准,具体内容如下:

Pre-Training Data

介绍了预训练数据的两个主要目标,即促进模态融合传达全面知识。大规模的图像-文本对数据集通常满足这些要求,它们主要来自互联网,提供了广泛的知识覆盖。预训练数据的处理方法包括使用自动化工具进行清洗和过滤,以及利用更强大的多模态模型进行高质量的预训练。

图片

Instruction-Tuning Data

介绍了指令调优数据的重要性和来源。高质量的指令调优数据可以来自任务特定的数据集,也可以通过半自动化生成或利用大型语言模型进行自监督学习得到。多任务数据集可以提供丰富的数据,但在实际应用中可能不够灵活。此外,还提到了利用文本指令数据和图像-文本数据的组合来提高模型的性能。

图片

Benchmarks

展示了用于评估22个多模态大语言模型在14个已建立的视觉语言基准上的性能的表格,并与13个更显著和更大的多模态大语言模型进行了比较。

图片

7 Applications

这部分介绍了高效多模态大语言模型在一些下游任务中的应用,具体内容如下:

Biomedical Analysis

介绍了多模态生成AI在生物医学领域的应用,特别是在医学问答和医学图像分类方面的应用。还提到了MoE-TinyMed和LLaVA-Rad等模型在资源有限的医疗环境中的优势。

Document Understanding

介绍了文档理解的重要性和挑战,以及现有的文档理解模型在处理高分辨率图像和视觉信息压缩方面的局限性。还提到了TinyChart、TextHawk、HRVDA和Monkey等模型在解决这些问题方面的优势。

Video Comprehension

介绍了智能视频理解的重要性和应用,以及现有的基于LLM的大模态模型在处理长视频时的计算挑战。还提到了mPLUG-video、Video-LLaVA、LLaMA-VID和MA-LMM等模型在处理长视频方面的优势。

8 Discussion and Conclusion

这部分对高效多模态大语言模型的发展现状进行了总结,指出了当前研究面临的挑战,并对未来的研究方向进行了展望,具体内容如下:

Limitations and Future Work:

  • 处理多模态信息的能力有限:目前的高效多模态大语言模型在处理多模态信息时仍存在挑战,通常只能接受单一图像,这限制了它们在处理长视频和复杂文档等方面的应用。
  • 输入和输出模态的多样性不足:大多数高效多模态大语言模型主要支持图像和文本作为输入模态,以及文本作为输出模态。然而,现实世界中的模态更加丰富,例如音频、触觉等。
  • 模型的可扩展性和定制性有待提高:为了使高效多模态大语言模型更具适用性,需要进一步提高其可扩展性和定制性,以满足不同应用场景的需求。
  • 边缘计算和具身智能的应用潜力尚未充分挖掘:高效多模态大语言模型在边缘计算和具身智能领域具有巨大的应用潜力,但目前这方面的研究还相对较少。

Conclusion

高效多模态大型语言模型是一个充满挑战和机遇的研究领域,未来的发展还需要学术界和产业界的共同努力和合作。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29993.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Graphviz——实现动态更新协议状态机

1、描述 为了实现动态更新协议状态机,首先需要定义类来表示协议状态机。初始化该类后,保存状态机对象。在后续更新过程中,就可以加载保存的状态机对象,添加新的状态或事件。Graphviz的安装过程参考:Graphviz——安装、…

ECharts 雷达图案例002 - 诈骗性质分析

ECharts 雷达图案例002 - 诈骗性质分析 📊 ECharts 雷达图案例002 - 诈骗性质分析 深入挖掘数据背后的故事,用可视化手段揭示诈骗行为的模式和趋势。 🔍 案例亮点 创新的数据展示方式,让复杂的诈骗数据一目了然。定制化的雷达图…

一文带你入门【论文排版】利器·LaTeX |Macos

小罗碎碎念 我在刚开始写公众号的时候,写过一期推文,详细的讲解过如何使用LaTeX快速的进行论文排版。不过当时用的是windows的系统,这一次把Mac端的教程补上。 windows系统教程 https://zhuanlan.zhihu.com/p/677481269 LaTeX是一种流行的排…

Python10 python多线程

1.什么是python多线程 Python的多线程指的是在一个Python程序中同时运行多个线程,以达到并发执行多个任务的目的。线程是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单位。 在Python中,多线程的…

昇思25天学习打卡营第1天 | 快速入门

内容介绍:通过MindSpore的API来快速实现一个简单的深度学习模型。 具体内容: 1. 导包 import mindspore from mindspore import nn from mindspore.dataset import vision, transforms from mindspore.dataset import MnistDataset 2. 处理数据 fro…

如何快速使用向量检索服务DashVector?

免费体验阿里云高性能向量检索服务:https://www.aliyun.com/product/ai/dashvector 本文将介绍如何快速上手使用向量检索服务DashVector。 前提条件 已创建Cluster:创建Cluster。 已获得API-KEY:API-KEY管理。 已安装最新版SDK&#xff1a…

【网络安全学习】漏洞扫描:-01- 漏洞数据库searchsploit的使用

漏洞数据库是收集和存储各种软件漏洞信息的资源库。 漏洞数据库通常包含漏洞的名称、编号、描述、影响范围、危害等级、解决方案等信息,有些还提供漏洞的分析报告、演示视频、利用代码等内容。 1.常用的在线漏洞库: 国家信息安全漏洞共享平台 https:/…

Unity 天空盒制作使用教程

文章目录 1.概念2.制作天空盒3.使用天空盒3.1 为场景添加3.2 为相机添加 1.概念 天空盒是包裹整个场景的环境效果。 2.制作天空盒 1、创建材质球。 2、设置材质球Shader为SkyBox/6 Sided,将六张贴图放到对应位置。 3.使用天空盒 3.1 为场景添加 方法一、直接…

STM32F103ZET6_移植uC/OS_HAL

1下载源码 网址 GitHub - weston-embedded/uC-OS2: C/OS-II is a preemptive, highly portable, and scalable real-time kernels. Designed for ease of use on a huge number of CPU architectures. 需要下载三个文件 1看你使用是ucos2还是3(第一个文件&#…

【Python】类和对象高级特性

目录 前言 类变量与实例变量 类方法 静态方法 私有属性和方法 多重继承 元类 描述符 总结 前言 在前一篇文章中,我们讨论了 Python 类和对象的基本概念。本文将深入探讨一些高级特性,这些特性可以帮助你更有效地使用 Python 进行面向对象编程。…

Next.js开发中使用useRouter实现点击返回到上一页

在使用Next.js框架做前端页面开发时,如果想返回到上一页,可以利用useRouter钩子提供的back()方法,可以这样做: import {useRouter} from "next/navigation"; import {Space} from "antd"; import {ArrowLeftOutlined} f…

Mendix 创客访谈录|医疗设备领域的数字化转型利器

本期创客 尚衍亮 爱德亚(北京)医疗科技有限公司 应用开发和数字化事业部开发经理 大家好,我叫尚衍亮。毕业于软件工程专业,有6年的软件开发经验。从2021年开始,我在爱德亚(北京)医疗科技有限公司…

智能合约开发的过程

智能合约是一种运行在区块链上的程序,可以自动执行预先设定的条款和条件。智能合约具有去中心化、透明、不可篡改等特点,因此被广泛应用于金融、供应链、物联网等领域。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流…

Spring Boot集成Minio插件快速入门

1 Minio介绍 MinIO 是一个基于 Apache License v2.0 开源协议的对象存储服务。它兼容亚马逊 S3 云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小&…

LSM-Tree数据结构原理

LSM-Tree树原理 什么是LSM-Tree LSM-Tree 即 Log Structrued Merge Tree,这是一种分层有序,硬盘友好的数据结构。核心思想是利用磁盘顺序写性能远高于随机写。 LSM-Tree 并不是一种严格的树结构,而是一种内存磁盘的多层存储结构。HBase、L…

基于Baichuan2的新冠流感中医自我诊断治疗(大模型微调+Gradio)

一、项目说明 项目使用paddleNLP提供的大模型套件对Baichuan2-7b/13b进行微调,使用《中医治疗新冠流感支原体感染等有效病历集》进行Lora训练,使大模型具备使用中医方案诊断和治疗新冠、流感等上呼吸道感染的能力。 二、PaddleNLP PaddleNLP提供的飞桨…

css 文字两端对齐

<body><div class"box"><p>姓名</p><p>性与别</p><p>家庭住址</p><p>how are you</p><p>hello</p><p>1234</p><p>1 2 3 4</p></div> </body> text-a…

Ubuntu-24.04-live-server-amd64启用ssh

系列文章目录 Ubuntu-24.04-live-server-amd64安装界面中文版 Ubuntu安装qemu-guest-agent Ubuntu乌班图安装VIM文本编辑器工具 文章目录 系列文章目录前言一、输入安装命令二、使用私钥登录&#xff08;可选&#xff09;1.创建私钥2.生成三个文件说明3.将公钥复制到服务器 三…

面向对象进阶--继承(Java继承(超详解))

目录 1. 继承 1.1 继承概述 1.2 继承特点 1.3练习 1.4继承父类的内容 构造方法是否被子类继承 成员变量是否被子类继承 成员方法是否被子类继承 1.5总结 继承中&#xff1a;成员变量的访问特点 继承中&#xff1a;成员方法的访问特点 方法重写概述 方法重写的本质 …

飞睿智能LR-WIFI无线数据采集模块,6公里视频图传,安防监控、工业传输数据更高效

在数字化浪潮席卷全球的今天&#xff0c;无线数据采集技术已经成为推动社会进步的重要力量。特别是在安防监控和工业领域&#xff0c;高效、稳定的数据传输成为了实现智能化、自动化的关键。飞睿智能LR-WiFi无线数据采集模块不仅具备可靠的传输性能&#xff0c;还能在复杂环境下…