文生图的底层逻辑比你想象中简单！从大语言模型到大型多模态模型的演进与展望

2024年8月15日，来自浙江农林大学（数学与计算机科学学院）冯海林团队在CMC期刊发表名为“Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models”的文章。在这篇文章中，研究团队首先以ChatGPT 的发展为例，介绍了大型语言模型在文本生成和语言理解方面的贡献，详细概述了从大型语言模型 (LLM) 到大型多模态模型 (LMM) 的演进过程。图 1 展现了研究人员从六个方面对大语言模型和大型多模态模型进行了广泛的概述。探讨融合了文本、图像和声音等各种数据模态的大型多模态模型在理解和生成跨模态内容的实际能力，为人工智能系统的技术发展提供理论支撑。最后，重点介绍了大语言模型和大型多模态模型在同一应用领域中的不同作用与实际价值，同时也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战，为基础模型的发展提供全面的视角。
前排提示，文末有大模型AGI-CSDN独家资料包哦！

图1 大语言模型与多模态模型的概述

文章详情

研究背景

人机交互的场景日益复杂多样，因此需要开发通用的模型使计算机能够执行复杂的语言任务。对基础模型的需求源于对机器处理复杂语言任务的日益增长的需求，包括翻译、总结、信息检索、对话交互等。这种必要性植根于人类沟通和表达思想的内在能力。语言是人类表达和交流的一项重要能力，并在一生中不断发展。与人类不同，计算机缺乏理解和生成人类语言的天生能力，这一差距只能通过部署复杂的人工智能算法来弥补。如何实现这一目标，让机器像人类一样阅读、写作和交流，一直是一个长期的研究挑战。为了应对这一挑战，语言建模领域旨在通过关注单词序列的生成可能性来提高机器语言智能，从而能够预测未来或文本中缺失的标记。目前总共经历了统计语言模型（SLM）、神经语言模型（NLM）、预训练语言模型（PLM）、大型语言模型（LLM）四个重要阶段，每个阶段都标志着计算机朝着人机交互的方向迈出了关键性的一步。

基于这四个阶段，大型多模态模型的发展成为人工智能进化的关键第五阶段。大型多模态模型将视觉理解和听觉处理等多感官技能与大型语言模型的语言能力相结合。这种方法不仅利用了视觉的主导作用，还强调了声音等其他模式的重要性，增强了人工智能系统的熟练程度和多功能性。通过整合更广泛的感官输入，大型多模态模型旨在实现更强大的通用智能形式，能够有效地执行更广泛的任务。图 2 描绘了不同时期的标志性基础模型，展示了这些模型在不同时期所承担的任务的演变情况。随着科学和技术的进步，大型语言模型和多模态模型在不同领域的普遍采用势必会激增，从而促进了无数不同任务的执行。

图2 基础模型发展历程

研究亮点

与传统的大语言模型单一模态输入相比，在探讨不同模态的输入如何进行编码的时候，本文引入了模态编码器的概念。模态编码器的核心任务是针对不同模态的输入进行编码，从而获取对应的特征。针对视觉领域，常用的编码器为NFNet-F6 、Vision Transformer （ViT）、CLIP ViT 、Eva-CLIP ViT；针对音频领域常用的编码模型为：CFormer 、HuBERT 、BEATs 和 Whisper。文中指出在现代人工智能研究中，多模态模型使用跨模态注意力机制集成文本、图像和声音等各种数据。这些机制使模型能够关注各种模态的相关信息。图3显示了2019年至2024年中期的模型提案时间表，深蓝色表示多模态模型；淡蓝色表示非多模态模型。下方的饼图描绘了2021年至2023年多模态和非多模态模型的比例。从图中可以看出，多模态模型的发展和应用越来越受到公众的认可和接受。

图3 2019-2024年基础模型演变情况

无论是在大语言模型还是在大型多模态模型的测试中，想要模型的处理更加得心应手，除了选择合适的模态编码器之外，预训练也是必不可少的一个过程。在预训练过程中，大语言模型的实力来自精心策划的文本数据集。这些文本数据集能够为大语言模型提供丰富多样的语言和概念景观供其学习，从而增强了它们在无数任务中的适用性和灵活性。

而大型多模态模型则是利用更加庞大而多样的数据集进行预训练，包括图像、文本，有时还包括视听内容，以便跨模态理解和生成。在数据集和BooksCorpus上对文本进行预训练，使大型多模态模型能够获得基础知识。然后，指令调优数据集能够为特定任务定制这些模型。例如，视觉问答数据集指导模型如何准确响应有关视觉内容的查询。这种全面的训练使其能够执行复杂的任务，如图像描述和视觉推理，弥合了人类和机器感知之间的差距。评估大型多模态模型包括衡量它们在结合文本和视觉输入的任务中的熟练程度。这涉及专门的基准测试，旨在量化模型对不同模态的理解和生成能力。这些评估指标不仅对于衡量大型多模态模型在不同场景中模仿人类理解的能力至关重要而且指明了大型多模态模型的未来优化方向。

表1详细概述了模型的名称、参数数量、层数、数据集描述及其各自的训练策略，包括自编码方法、自回归方法和序列到序列（Seq2Seq）编码-解码方法。几种大型模型的比较包括参数大小、层、数据集和训练制度（“-”表示对于多模态模型，由于其独特的架构和集成各种类型数据的方法，某些细节如层数或训练策略不容易分类或适用，因此这些字段留空）。蓝色底部代表大语言模型，红色底部代表大型多模态模型。这一全面的总结有助于更深入地理解当代语言模型的多样性和规模，以及与它们的数据处理和学习机制相关的复杂性。

研究结论

在本文中，作者探讨了从大语言模型到大型多模态模型的演变过程以及未来发展前景，强调了能够理解文本以外各种数据格式的AI系统的开发和集成。同时介绍了大语言模型和大型多模态模型中注意力机制的基本概念，探讨了两种模型的结构和架构，讨论了两者的训练方法和数据源，并研究了基础模型的新兴能力，包括指令遵循和逐步推理。研究人员讨论了大型语言模型和多模态模型面临的未解决问题。这些问题包括上下文理解、错觉纠正、认知能力评估和准确性推理。此外，作者还阐述了目前各个领域的研究新研究成果，重点介绍了大型语言模型和多模态模型在医学、经济学、机器人等各个领域的具体应用。最后，本文也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战，为大语言模型和多模态模型的发展提供了新视角。

引用格式

APA Style

Chen, Z., Xu, L., Zheng, H., Chen, L., Tolba, A. et al. (2024). Evolution and prospects of foundation models: from large language models to large multimodal models. Computers, Materials & Continua, 80(2), 1753-1808. https://doi.org/10.32604/cmc.2024.052618

Vancouver Style

Chen Z, Xu L, Zheng H, Chen L, Tolba A, Zhao L, et al. Evolution and prospects of foundation models: from large language models to large multimodal models. Comput Mater Contin. 2024;80(2):1753-1808 https://doi.org/10.32604/cmc.2024.052618

IEEE Style

Z. Chen et al., “Evolution and Prospects of Foundation Models: From Large Language Models to Large Multimodal Models,” Comput. Mater. Contin., vol. 80, no. 2, pp. 1753-1808. 2024. https://doi.org/10.32604/cmc.2024.052618

在这里插入图片描述