文生图的底层逻辑比你想象中简单!从大语言模型到大型多模态模型的演进与展望

2024年8月15日,来自浙江农林大学(数学与计算机科学学院)冯海林团队在CMC期刊发表名为“Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models”的文章。在这篇文章中,研究团队首先以ChatGPT 的发展为例,介绍了大型语言模型在文本生成和语言理解方面的贡献,详细概述了从大型语言模型 (LLM) 到大型多模态模型 (LMM) 的演进过程。图 1 展现了研究人员从六个方面对大语言模型和大型多模态模型进行了广泛的概述。探讨融合了文本、图像和声音等各种数据模态的大型多模态模型在理解和生成跨模态内容的实际能力,为人工智能系统的技术发展提供理论支撑。最后,重点介绍了大语言模型和大型多模态模型在同一应用领域中的不同作用与实际价值,同时也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为基础模型的发展提供全面的视角。
前排提示,文末有大模型AGI-CSDN独家资料包哦!

图1 大语言模型与多模态模型的概述

文章详情

研究背景

人机交互的场景日益复杂多样,因此需要开发通用的模型使计算机能够执行复杂的语言任务。对基础模型的需求源于对机器处理复杂语言任务的日益增长的需求,包括翻译、总结、信息检索、对话交互等。这种必要性植根于人类沟通和表达思想的内在能力。语言是人类表达和交流的一项重要能力,并在一生中不断发展。与人类不同,计算机缺乏理解和生成人类语言的天生能力,这一差距只能通过部署复杂的人工智能算法来弥补。如何实现这一目标,让机器像人类一样阅读、写作和交流,一直是一个长期的研究挑战。为了应对这一挑战,语言建模领域旨在通过关注单词序列的生成可能性来提高机器语言智能,从而能够预测未来或文本中缺失的标记。目前总共经历了统计语言模型(SLM)、神经语言模型 (NLM)、预训练语言模型(PLM)、大型语言模型 (LLM)四个重要阶段,每个阶段都标志着计算机朝着人机交互的方向迈出了关键性的一步。

基于这四个阶段,大型多模态模型的发展成为人工智能进化的关键第五阶段。大型多模态模型将视觉理解和听觉处理等多感官技能与大型语言模型的语言能力相结合。这种方法不仅利用了视觉的主导作用,还强调了声音等其他模式的重要性,增强了人工智能系统的熟练程度和多功能性。通过整合更广泛的感官输入,大型多模态模型旨在实现更强大的通用智能形式,能够有效地执行更广泛的任务。图 2 描绘了不同时期的标志性基础模型,展示了这些模型在不同时期所承担的任务的演变情况。随着科学和技术的进步,大型语言模型和多模态模型在不同领域的普遍采用势必会激增,从而促进了无数不同任务的执行。

图2 基础模型发展历程

研究亮点

与传统的大语言模型单一模态输入相比,在探讨不同模态的输入如何进行编码的时候,本文引入了模态编码器的概念。模态编码器的核心任务是针对不同模态的输入进行编码,从而获取对应的特征。针对视觉领域,常用的编码器为NFNet-F6 、Vision Transformer (ViT)、CLIP ViT 、Eva-CLIP ViT;针对音频领域常用的编码模型为:CFormer 、HuBERT 、BEATs 和 Whisper。文中指出在现代人工智能研究中,多模态模型使用跨模态注意力机制集成文本、图像和声音等各种数据。这些机制使模型能够关注各种模态的相关信息。图3显示了2019年至2024年中期的模型提案时间表,深蓝色表示多模态模型;淡蓝色表示非多模态模型。下方的饼图描绘了2021年至2023年多模态和非多模态模型的比例。从图中可以看出,多模态模型的发展和应用越来越受到公众的认可和接受。

图3 2019-2024年基础模型演变情况

无论是在大语言模型还是在大型多模态模型的测试中,想要模型的处理更加得心应手,除了选择合适的模态编码器之外,预训练也是必不可少的一个过程。在预训练过程中,大语言模型的实力来自精心策划的文本数据集。这些文本数据集能够为大语言模型提供丰富多样的语言和概念景观供其学习,从而增强了它们在无数任务中的适用性和灵活性。

而大型多模态模型则是利用更加庞大而多样的数据集进行预训练,包括图像、文本,有时还包括视听内容,以便跨模态理解和生成。在数据集和BooksCorpus上对文本进行预训练,使大型多模态模型能够获得基础知识。然后,指令调优数据集能够为特定任务定制这些模型。例如,视觉问答数据集指导模型如何准确响应有关视觉内容的查询。这种全面的训练使其能够执行复杂的任务,如图像描述和视觉推理,弥合了人类和机器感知之间的差距。评估大型多模态模型包括衡量它们在结合文本和视觉输入的任务中的熟练程度。这涉及专门的基准测试,旨在量化模型对不同模态的理解和生成能力。这些评估指标不仅对于衡量大型多模态模型在不同场景中模仿人类理解的能力至关重要而且指明了大型多模态模型的未来优化方向。

表1详细概述了模型的名称、参数数量、层数、数据集描述及其各自的训练策略,包括自编码方法、自回归方法和序列到序列(Seq2Seq)编码-解码方法。几种大型模型的比较包括参数大小、层、数据集和训练制度(“-”表示对于多模态模型,由于其独特的架构和集成各种类型数据的方法,某些细节如层数或训练策略不容易分类或适用,因此这些字段留空)。蓝色底部代表大语言模型,红色底部代表大型多模态模型。这一全面的总结有助于更深入地理解当代语言模型的多样性和规模,以及与它们的数据处理和学习机制相关的复杂性。

研究结论

在本文中,作者探讨了从大语言模型到大型多模态模型的演变过程以及未来发展前景,强调了能够理解文本以外各种数据格式的AI系统的开发和集成。同时介绍了大语言模型和大型多模态模型中注意力机制的基本概念,探讨了两种模型的结构和架构,讨论了两者的训练方法和数据源,并研究了基础模型的新兴能力,包括指令遵循和逐步推理。研究人员讨论了大型语言模型和多模态模型面临的未解决问题。这些问题包括上下文理解、错觉纠正、认知能力评估和准确性推理。此外,作者还阐述了目前各个领域的研究新研究成果,重点介绍了大型语言模型和多模态模型在医学、经济学、机器人等各个领域的具体应用。最后,本文也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为大语言模型和多模态模型的发展提供了新视角。

引用格式

APA Style

Chen, Z., Xu, L., Zheng, H., Chen, L., Tolba, A. et al. (2024). Evolution and prospects of foundation models: from large language models to large multimodal models. Computers, Materials & Continua, 80(2), 1753-1808. https://doi.org/10.32604/cmc.2024.052618

Vancouver Style

Chen Z, Xu L, Zheng H, Chen L, Tolba A, Zhao L, et al. Evolution and prospects of foundation models: from large language models to large multimodal models. Comput Mater Contin. 2024;80(2):1753-1808 https://doi.org/10.32604/cmc.2024.052618

IEEE Style

Z. Chen et al., “Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models,” Comput. Mater. Contin., vol. 80, no. 2, pp. 1753-1808. 2024. https://doi.org/10.32604/cmc.2024.052618

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

铲屎官们快来交作业!双十一性价比高的宠物空气净化器求推荐?

好不容易等到一年一度的双十一,这个购物狂欢节我肯定不能错过。除了自己买买买外,还准备给我家小猫也买个礼物。之前听说宠物空气净化器对养宠家庭作用很大,打算趁活动拿下。 不看不知道,一看吓一跳,有点太贵了吧&…

【SoC】被忽略的reset结构设计

1024这天爆出来的设计失误,真的很应景啦! 先献上A72的reset结构图吧,虽然最终的解决方案不是按照这个来的,不过也给了一个相对较清晰的reset架构了。 异步复位树 当对整个电路进行复位的时候,使用异步复位&#xff0c…

spark统一内存模型 详解

Apache Spark 是一个用于大规模数据处理的分布式计算框架,它支持多种处理模型(如批处理、流处理、SQL、机器学习等)。为了高效地在分布式环境中处理这些多样化的工作负载,Spark 在 2.x 版本后引入了统一内存管理模型,以…

【实战项目】——Boost搜索引擎(五万字)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一、项目的相关背景 1.1、什么是Boost库? 1.2、什么是搜索引擎? 1.3、为什么要做Boost库搜索引擎? 二、搜索引擎的宏观原…

生产小工单如何轻松实现生产任务敏捷管理的?

在现代生产任务制造业中,有效管理生产是提升效率的关键。生产管理系统中的生产小工单管理,是解决传统生产管理痛点的重要工具。本文将深入探讨生产小工单的概念、流程及其主要功能。 下面我会用一个实际的生产工单系统为例,给大家详细介绍下…

苍穹外卖--开发记录day12(完结篇)

目录 苍穹外卖day12一:工作台二:apachePOI三:导出excel报表(最后一个功能!!) 总结(项目完结心得) 苍穹外卖day12 一:工作台 代码导入之后就是这样的效果&…

Java 虚拟机(JVM)中的内存泄漏排查技巧及各种内存查看命令分析工具推荐

文章目录 引言什么是内存泄漏?工具和技术1. 使用 jstat 监控 JVM2. 使用 jmap 生成堆转储文件3. 使用 jvisualvm 分析堆转储文件4. 使用 MAT(Memory Analyzer Tool)5. 使用 YourKit 或 JProfiler6. 代码审查和静态分析 实战案例案例 1&#x…

使用U-KAN训练自己的数据集 — 医疗影像分割

<U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation> U-Net已成为各种视觉应用的基石,如图像分割和扩散概率模型。虽然通过整合变压器或mlp引入了许多创新设计和改进,但网络仍然局限于线性建模模式以及缺乏可解释性。为了应对这些挑战,受到…

ChartCheck: Explainable Fact-Checking over Real-World Chart Images

论文地址: https://aclanthology.org/2024.findings-acl.828.pdfhttps://aclanthology.org/2024.findings-acl.828.pdf 1.概述 事实验证技术在自然语言处理领域获得了广泛关注,尤其是在针对误导性陈述的检查方面。然而,利用图表等数据可视化来传播信息误导的情况却很少受到…

【简历】25届浙江某211大学JAVA简历:明明项目有货,但是长篇大论减分!!

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 另外&#xff1a;我们出这一系列校招简历指导的原因&#xff0c;就是看很多学生被忽悠&#xff0c;没有先定位大厂、中厂还是小公司&#xff0c;导…

Logistic回归(分类)问题探讨与实践

说明 在本专栏机器学习_墨#≯的博客-CSDN博客之前的博文中&#xff0c;已经对感知机[1]、SVM[2]以及线性回归问题[3]做过探讨和实践。感知机以及SVM是用来做分类的&#xff0c;线性回归是用来做拟合的。本文将要探讨的Logistic回归(逻辑回归)则是使用线性回归的方法来做分类(二…

90V转5V4A同步降压芯片WT6037

90V转5V4A同步降压芯片WT6037 WT6037 被定义为一款高压同步降压转换器&#xff0c;其设计可在 10V 至 90V 的宽泛工作电压区间内稳定运行。该转换器尤其适用于需承受宽电压输入范围的电池组系统&#xff0c;诸如 12V 至 72V 的电池组&#xff0c;以及 60V 至 90V 的降压应用场…

DOL 电机启动器接触器选择和选型

接触器连接在断路器和热过载保护继电器之间。接触器的选型和选择过程与断路器在计算满载电流和计算额定电流方面的过程类似。不同之处在于市场上可用组件的选择表。 从断路器的选型和选型中&#xff0c;我们发现&#xff1a; 电机尺寸 6HP 功率(P)4476W 电机FLC7.78A 断路…

汽车免拆诊断案例 | 2019 款奥迪 A6L 车行驶中偶发熄火

故障现象  一辆2019款奥迪A6L车&#xff0c;搭载2.0T发动机&#xff0c;累计行驶里程约为9万km。车主反映&#xff0c;车辆行驶中偶发熄火&#xff0c;故障频率较高。 故障诊断  接车后试车&#xff0c;起动发动机&#xff0c;可以正常起动着机。使用故障检测仪检测&#x…

一起搭WPF架构之完结总结篇

一起搭WPF架构之完结总结篇 前言设计总结设计介绍页面一页面二页面三 结束 前言 整体基于WPF架构&#xff0c;根据自己的需求简单设计与实现了衣橱的数据统计、增加与读取数据、并展示数据的小软件。我知道自己在设计方面还有很多不足&#xff0c;暂时先做到这里了&#xff0c…

【SQL|大数据|数据清洗|过滤】where条件中 “ != “ 和 “ NOT IN() ” 对NULL的处理

对数据进行清洗过滤的时候&#xff0c;NULL往往是一个很特殊的存在&#xff0c;对NULL值的存在通常有以下三种方式 1、保留NULL 2、过滤掉NULL 3、将NULL替换为其他符合业务需求的默认常量 下面是一些常用处理NULL的方式&#xff1a; 如下图所示数据源&#xff1a; car_vin&…

天锐绿盾与Ping32内网安全保护能力对比,选择最优方案

在数字化时代&#xff0c;企业内网安全面临着越来越多的挑战。有效保护内网数据安全&#xff0c;防止信息泄露和外部攻击至关重要。今天&#xff0c;我们将对比天锐绿盾和Ping32这两款内网安全保护软件&#xff0c;帮助您选择最适合的解决方案。 1. 安全防护机制 Ping32 Ping…

熔解曲线技术路线简介

在实时荧光定量PCR&#xff08;qPCR&#xff09;实验中&#xff0c;当双链DNA受热时&#xff0c;其互补碱基之间的氢键会逐渐断裂&#xff0c;导致双链分离成两条单链&#xff0c;这一过程被称为DNA的“熔解”。 总的DNA双螺旋结构降解一半的温度称为熔解温度&#xff08;Tm&a…

游戏推荐业务中基于 sentinel 的动态限流实践

作者&#xff1a;来自 vivo 互联网服务器团队- Gao Meng 本文介绍了一种基于 sentinel 进行二次开发的动态限流解决方案&#xff0c;包括什么是动态限流、为什么需要引入动态限流、以及动态限流的实现原理。 一、背景 1.1 当前的限流方案 随着互联网的发展及业务的增长&…

python基础综合案例(数据可视化-地图可视化)

1.基础地图使用 注意写名字的时候要写全名&#xff0c;比如上海市不能写出上海&#xff0c;不然看不到数据 鼠标点击即可看到数据 设置属性的时候不要忘记导包 # 演示地图可视化的基础使用 from pyecharts.charts import Map from pyecharts.options import VisualMapOpts # 准…