文生图的底层逻辑比你想象中简单!从大语言模型到大型多模态模型的演进与展望

2024年8月15日,来自浙江农林大学(数学与计算机科学学院)冯海林团队在CMC期刊发表名为“Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models”的文章。在这篇文章中,研究团队首先以ChatGPT 的发展为例,介绍了大型语言模型在文本生成和语言理解方面的贡献,详细概述了从大型语言模型 (LLM) 到大型多模态模型 (LMM) 的演进过程。图 1 展现了研究人员从六个方面对大语言模型和大型多模态模型进行了广泛的概述。探讨融合了文本、图像和声音等各种数据模态的大型多模态模型在理解和生成跨模态内容的实际能力,为人工智能系统的技术发展提供理论支撑。最后,重点介绍了大语言模型和大型多模态模型在同一应用领域中的不同作用与实际价值,同时也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为基础模型的发展提供全面的视角。
前排提示,文末有大模型AGI-CSDN独家资料包哦!

图1 大语言模型与多模态模型的概述

文章详情

研究背景

人机交互的场景日益复杂多样,因此需要开发通用的模型使计算机能够执行复杂的语言任务。对基础模型的需求源于对机器处理复杂语言任务的日益增长的需求,包括翻译、总结、信息检索、对话交互等。这种必要性植根于人类沟通和表达思想的内在能力。语言是人类表达和交流的一项重要能力,并在一生中不断发展。与人类不同,计算机缺乏理解和生成人类语言的天生能力,这一差距只能通过部署复杂的人工智能算法来弥补。如何实现这一目标,让机器像人类一样阅读、写作和交流,一直是一个长期的研究挑战。为了应对这一挑战,语言建模领域旨在通过关注单词序列的生成可能性来提高机器语言智能,从而能够预测未来或文本中缺失的标记。目前总共经历了统计语言模型(SLM)、神经语言模型 (NLM)、预训练语言模型(PLM)、大型语言模型 (LLM)四个重要阶段,每个阶段都标志着计算机朝着人机交互的方向迈出了关键性的一步。

基于这四个阶段,大型多模态模型的发展成为人工智能进化的关键第五阶段。大型多模态模型将视觉理解和听觉处理等多感官技能与大型语言模型的语言能力相结合。这种方法不仅利用了视觉的主导作用,还强调了声音等其他模式的重要性,增强了人工智能系统的熟练程度和多功能性。通过整合更广泛的感官输入,大型多模态模型旨在实现更强大的通用智能形式,能够有效地执行更广泛的任务。图 2 描绘了不同时期的标志性基础模型,展示了这些模型在不同时期所承担的任务的演变情况。随着科学和技术的进步,大型语言模型和多模态模型在不同领域的普遍采用势必会激增,从而促进了无数不同任务的执行。

图2 基础模型发展历程

研究亮点

与传统的大语言模型单一模态输入相比,在探讨不同模态的输入如何进行编码的时候,本文引入了模态编码器的概念。模态编码器的核心任务是针对不同模态的输入进行编码,从而获取对应的特征。针对视觉领域,常用的编码器为NFNet-F6 、Vision Transformer (ViT)、CLIP ViT 、Eva-CLIP ViT;针对音频领域常用的编码模型为:CFormer 、HuBERT 、BEATs 和 Whisper。文中指出在现代人工智能研究中,多模态模型使用跨模态注意力机制集成文本、图像和声音等各种数据。这些机制使模型能够关注各种模态的相关信息。图3显示了2019年至2024年中期的模型提案时间表,深蓝色表示多模态模型;淡蓝色表示非多模态模型。下方的饼图描绘了2021年至2023年多模态和非多模态模型的比例。从图中可以看出,多模态模型的发展和应用越来越受到公众的认可和接受。

图3 2019-2024年基础模型演变情况

无论是在大语言模型还是在大型多模态模型的测试中,想要模型的处理更加得心应手,除了选择合适的模态编码器之外,预训练也是必不可少的一个过程。在预训练过程中,大语言模型的实力来自精心策划的文本数据集。这些文本数据集能够为大语言模型提供丰富多样的语言和概念景观供其学习,从而增强了它们在无数任务中的适用性和灵活性。

而大型多模态模型则是利用更加庞大而多样的数据集进行预训练,包括图像、文本,有时还包括视听内容,以便跨模态理解和生成。在数据集和BooksCorpus上对文本进行预训练,使大型多模态模型能够获得基础知识。然后,指令调优数据集能够为特定任务定制这些模型。例如,视觉问答数据集指导模型如何准确响应有关视觉内容的查询。这种全面的训练使其能够执行复杂的任务,如图像描述和视觉推理,弥合了人类和机器感知之间的差距。评估大型多模态模型包括衡量它们在结合文本和视觉输入的任务中的熟练程度。这涉及专门的基准测试,旨在量化模型对不同模态的理解和生成能力。这些评估指标不仅对于衡量大型多模态模型在不同场景中模仿人类理解的能力至关重要而且指明了大型多模态模型的未来优化方向。

表1详细概述了模型的名称、参数数量、层数、数据集描述及其各自的训练策略,包括自编码方法、自回归方法和序列到序列(Seq2Seq)编码-解码方法。几种大型模型的比较包括参数大小、层、数据集和训练制度(“-”表示对于多模态模型,由于其独特的架构和集成各种类型数据的方法,某些细节如层数或训练策略不容易分类或适用,因此这些字段留空)。蓝色底部代表大语言模型,红色底部代表大型多模态模型。这一全面的总结有助于更深入地理解当代语言模型的多样性和规模,以及与它们的数据处理和学习机制相关的复杂性。

研究结论

在本文中,作者探讨了从大语言模型到大型多模态模型的演变过程以及未来发展前景,强调了能够理解文本以外各种数据格式的AI系统的开发和集成。同时介绍了大语言模型和大型多模态模型中注意力机制的基本概念,探讨了两种模型的结构和架构,讨论了两者的训练方法和数据源,并研究了基础模型的新兴能力,包括指令遵循和逐步推理。研究人员讨论了大型语言模型和多模态模型面临的未解决问题。这些问题包括上下文理解、错觉纠正、认知能力评估和准确性推理。此外,作者还阐述了目前各个领域的研究新研究成果,重点介绍了大型语言模型和多模态模型在医学、经济学、机器人等各个领域的具体应用。最后,本文也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为大语言模型和多模态模型的发展提供了新视角。

引用格式

APA Style

Chen, Z., Xu, L., Zheng, H., Chen, L., Tolba, A. et al. (2024). Evolution and prospects of foundation models: from large language models to large multimodal models. Computers, Materials & Continua, 80(2), 1753-1808. https://doi.org/10.32604/cmc.2024.052618

Vancouver Style

Chen Z, Xu L, Zheng H, Chen L, Tolba A, Zhao L, et al. Evolution and prospects of foundation models: from large language models to large multimodal models. Comput Mater Contin. 2024;80(2):1753-1808 https://doi.org/10.32604/cmc.2024.052618

IEEE Style

Z. Chen et al., “Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models,” Comput. Mater. Contin., vol. 80, no. 2, pp. 1753-1808. 2024. https://doi.org/10.32604/cmc.2024.052618

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

铲屎官们快来交作业!双十一性价比高的宠物空气净化器求推荐?

好不容易等到一年一度的双十一,这个购物狂欢节我肯定不能错过。除了自己买买买外,还准备给我家小猫也买个礼物。之前听说宠物空气净化器对养宠家庭作用很大,打算趁活动拿下。 不看不知道,一看吓一跳,有点太贵了吧&…

【SoC】被忽略的reset结构设计

1024这天爆出来的设计失误,真的很应景啦! 先献上A72的reset结构图吧,虽然最终的解决方案不是按照这个来的,不过也给了一个相对较清晰的reset架构了。 异步复位树 当对整个电路进行复位的时候,使用异步复位&#xff0c…

spark统一内存模型 详解

Apache Spark 是一个用于大规模数据处理的分布式计算框架,它支持多种处理模型(如批处理、流处理、SQL、机器学习等)。为了高效地在分布式环境中处理这些多样化的工作负载,Spark 在 2.x 版本后引入了统一内存管理模型,以…

ubuntu安装mysql8,离线安装mysql8

1、mysql官网下载安装包,版本号以实际下载为准 https://dev.mysql.com/downloads/mysql/ 如: mysql-server_8.0.40-1ubuntu24.04_amd64.deb-bundle.tar 2、上传到服务器 如 /opt/目录 3、创建一个mysql目录解压 mkdir mysql & tar -xvf mysql-server…

【实战项目】——Boost搜索引擎(五万字)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一、项目的相关背景 1.1、什么是Boost库? 1.2、什么是搜索引擎? 1.3、为什么要做Boost库搜索引擎? 二、搜索引擎的宏观原…

10.24Python_pandas_基础

一、基础 1、概述 Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析)Pandas 已经成为 P…

ansible面试题

简述Ansible及其优势? Ansible 是一款极其简单的开源的自动化运维工具,基于Python开发,集合了众多运维工具(puppet,cfengine, chef, func, fabric)的优点。实现了批量系统配置,批量程序部署,批量运行命令等功能。同时…

生产小工单如何轻松实现生产任务敏捷管理的?

在现代生产任务制造业中,有效管理生产是提升效率的关键。生产管理系统中的生产小工单管理,是解决传统生产管理痛点的重要工具。本文将深入探讨生产小工单的概念、流程及其主要功能。 下面我会用一个实际的生产工单系统为例,给大家详细介绍下…

苍穹外卖--开发记录day12(完结篇)

目录 苍穹外卖day12一:工作台二:apachePOI三:导出excel报表(最后一个功能!!) 总结(项目完结心得) 苍穹外卖day12 一:工作台 代码导入之后就是这样的效果&…

Java 虚拟机(JVM)中的内存泄漏排查技巧及各种内存查看命令分析工具推荐

文章目录 引言什么是内存泄漏?工具和技术1. 使用 jstat 监控 JVM2. 使用 jmap 生成堆转储文件3. 使用 jvisualvm 分析堆转储文件4. 使用 MAT(Memory Analyzer Tool)5. 使用 YourKit 或 JProfiler6. 代码审查和静态分析 实战案例案例 1&#x…

使用U-KAN训练自己的数据集 — 医疗影像分割

<U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation> U-Net已成为各种视觉应用的基石,如图像分割和扩散概率模型。虽然通过整合变压器或mlp引入了许多创新设计和改进,但网络仍然局限于线性建模模式以及缺乏可解释性。为了应对这些挑战,受到…

数据库框架GORM快速入门【干货】

1.安装依赖 &#xff08;1&#xff09;安装GORM框架 go get -u gorm.io/gorm&#xff08;2&#xff09;安装不同的数据库驱动&#xff08;根据实际情况选择&#xff09; go get -u gorm.io/driver/mysql go get -u gorm.io/driver/postgres go get -u gorm.io/driver/sqlite …

ChartCheck: Explainable Fact-Checking over Real-World Chart Images

论文地址: https://aclanthology.org/2024.findings-acl.828.pdfhttps://aclanthology.org/2024.findings-acl.828.pdf 1.概述 事实验证技术在自然语言处理领域获得了广泛关注,尤其是在针对误导性陈述的检查方面。然而,利用图表等数据可视化来传播信息误导的情况却很少受到…

【简历】25届浙江某211大学JAVA简历:明明项目有货,但是长篇大论减分!!

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 另外&#xff1a;我们出这一系列校招简历指导的原因&#xff0c;就是看很多学生被忽悠&#xff0c;没有先定位大厂、中厂还是小公司&#xff0c;导…

京准电钟HR-901GB双GPS北斗卫星时钟服务器

京准电钟HR-901GB双GPS北斗卫星时钟服务器 京准电钟HR-901GB双GPS北斗卫星时钟服务器 作为国家电力系统最重要的设备之一,卫星时间同步装置随着电力行业的发展不断有了新的要求,从单纯的具备时间数据输出能力,发展到装置状态信息上送、对用时设备的对时质量进行监测,确保站点内…

Logistic回归(分类)问题探讨与实践

说明 在本专栏机器学习_墨#≯的博客-CSDN博客之前的博文中&#xff0c;已经对感知机[1]、SVM[2]以及线性回归问题[3]做过探讨和实践。感知机以及SVM是用来做分类的&#xff0c;线性回归是用来做拟合的。本文将要探讨的Logistic回归(逻辑回归)则是使用线性回归的方法来做分类(二…

90V转5V4A同步降压芯片WT6037

90V转5V4A同步降压芯片WT6037 WT6037 被定义为一款高压同步降压转换器&#xff0c;其设计可在 10V 至 90V 的宽泛工作电压区间内稳定运行。该转换器尤其适用于需承受宽电压输入范围的电池组系统&#xff0c;诸如 12V 至 72V 的电池组&#xff0c;以及 60V 至 90V 的降压应用场…

docker搭建etcd集群环境方式

docker搭建etcd集群环境方式 from: etcd 虚拟机与docker搭建etcd集群环境方式_docker部署etcd集群-CSDN博客 windows系统下 1: “\”要换成&#xff1a;“^” 2: 不能在windows powershell下执行

安全见闻(5)——开阔眼界,不做井底之蛙

安全见闻五&#xff1a;人工智能 内容预览 ≧∀≦ゞ 安全见闻五&#xff1a;人工智能声明导语一、人工智能基础机器学习基础机器学习的典型工作流程1. 数据收集2. 数据预处理3. 模型选择与训练4. 模型评估与优化5. 模型应用 深度学习基础深度学习基本原理1. 神经网络基础2. 多层…

DOL 电机启动器接触器选择和选型

接触器连接在断路器和热过载保护继电器之间。接触器的选型和选择过程与断路器在计算满载电流和计算额定电流方面的过程类似。不同之处在于市场上可用组件的选择表。 从断路器的选型和选型中&#xff0c;我们发现&#xff1a; 电机尺寸 6HP 功率(P)4476W 电机FLC7.78A 断路…