文章目录
- 1. 前言
- 2. 摘要部分
- 3. 引言部分
- 4. Overview 部分
- 4.1 LLMs 背景
- 4.2 GPT 系列模型的技术演变
- 5. 参考
1. 前言
最近正在读这边 LLM 论文的综述,鉴于读得费劲,如果将整个论文读完再来写会比较费劲。当前采取的策略是部分内容走读+记录,论文原文见《A Survey of Large Language Models》
本文先讲解摘要、引言以及 Overview部分,后续内容在持续更新中。
2. 摘要部分
鉴于摘要的重要性,这里不提炼,而是直接给出翻译的结果:
摘要:自20世纪50年代图灵测试被提出以来,人类一直在探索如何让机器掌握语言智能。语言本质上是受语法规则支配的复杂的人类表达系统,发展出能够理解和掌握语言的强大人工智能(AI)算法是一项重大挑战。在过去二十年间,随着统计语言模型向神经网络语言模型的发展,语言建模作为主要方法在语言理解和生成方面得到了广泛应用。最近,预训练语言模型(PLMs)通过大规模语料库上对 Transformer 模型进行预训练而得以提出,展现出了在解决各种自然语言处理(NLP)任务方面的强大能力。研究者发现模型规模的增大可以提高模型容量,于是进一步通过增加参数规模至更大程度来探究扩展效应。有趣的是,当参数规模超过某一阈值时,这些扩大的语言模型不仅实现了显著的性能提升,还展现出一些小型语言模型(如BERT)所不具备的特殊能力(例如上下文学习)。为了区分不同参数规模下的语言模型,研究界将含有数十亿乃至数百亿参数的PLMs称为大型语言模型(LLMs)。近年来,学术界和工业界在 LLMs 领域的研究取得了显著进展,其中最引人注目的是基于LLMs开发的强大AI聊天机器人 ChatGPT 的发布,引起了社会的广泛关注。LLMs技术的进步正在对整个 AI 社区产生重要影响,并可能彻底改变我们开发和使用AI算法的方式。鉴于这一快速的技术进步,本调查报告回顾了LLMs的最新进展,介绍了背景、关键发现和主流技术。特别是,我们专注于LLMs的四个主要方面,即预训练、适应性微调、应用及容量评估,并总结了可用于开发LLMs的资源以及未来研究方向面临的遗留问题。这份调查为LLMs的相关文献提供了最新的综述,对于研究人员和工程师而言是一份有用的参考资料。
关键词:大型语言模型;涌现能力;适应性调整;应用;一致性评估
3. 引言部分
大型语言模型(LLMs)的发展可以分为四个主要阶段:
-
统计语言模型(SLM)阶段:始于20世纪90年代,这类模型基于统计学习方法构建,如马尔可夫假设,通过分析历史上下文预测下一个词汇的概率。代表性工作包括 n-gram 语言模型,其中二元和三元模型是典型代表。尽管在信息检索和自然语言处理任务中有广泛应用,但 SLM 受困于维度灾难问题,即随着模型复杂度提高,需要估计的高阶转移概率数量呈指数级增长,导致数据稀疏性问题。为解决这一问题,研究者引入了平滑技术,如回退估计和图灵估计。
-
神经网络语言模型(NLM)阶段:进入本世纪后,随着神经网络技术的发展,NLMs 开始利用多层感知器、循环神经网络等结构来表征文本序列的概率分布,并提出分布式词表示的概念,使得模型能够根据上下文特征进行单词预测。这一阶段的突破性进展在于引入了更强大和灵活的特征学习机制,提高了对语言理解和生成任务的处理能力。
-
预训练语言模型(PLM)阶段:以 BERT 和 Transformer 架构为代表,预训练模型在大规模无标签文本上进行自我监督学习,然后针对具体任务进行微调。这种“预训练+微调”的策略显著提升了模型在各种 NLP 任务上的表现,特别是当模型参数规模逐渐增大时,显示出更强的语言理解能力和泛化性能。
-
大型语言模型(LLM)阶段:进一步扩展了预训练模型的规模,拥有数十亿乃至数百亿参数量的 LLMs 不仅在传统任务上表现优越,还展示出了一些小规模模型所不具备的“涌现能力”,例如 GPT-3 及其后续版本在无需特定任务训练的情况下,仅通过上下文学习就能执行多种任务。此外,LLMs 改变了人们开发和使用 AI 算法的方式,促使研究人员和工程师更多地关注如何有效地利用和调整这些模型以解决实际问题,同时探索模型的能力边界以及与人类价值观和道德规范的一致性问题。
从最初基于统计规律的 SLM 到如今具备高级认知能力的 LLMs,语言模型技术经历了逐步演化和发展,不断扩大其应用范围并深刻影响着人工智能领域的进步。
4. Overview 部分
4.1 LLMs 背景
大型语言模型(LLMs)的基本背景涵盖了多个关键方面:
-
缩放定律(Scaling Laws):LLMs 的性能与模型大小、数据量以及计算资源之间存在着密切关系。研究人员发现,随着模型参数规模的增长,通过遵循一定的幂律关系(如 KM 缩放定律),模型性能可以显著提升。例如,GPT-3 和 PaLM 等模型分别扩展至1750亿和5400亿参数级别,以验证这种规模效应。研究者还探讨了如何在有限的计算预算下更高效地分配资源,比如 Chinchilla 模型通过增加训练数据量而非单纯增大模型尺寸来优化性能。
-
涌现能力(Emergent Abilities):当LLMs达到一定规模后,它们展现出了一些小型模型所不具备的特殊能力。这些“涌现”能力包括上下文学习,在未经过特定任务微调的情况下能够理解并响应复杂指令;以及对新任务的适应性,即基于给定的输入示例就能够推断出相应的输出模式。这表明大模型可能具有更强的泛化能力和生成多样、准确文本的能力。这种能力并非线性或连续地随模型尺度扩大而出现,而是当模型超过某个阈值时突然展现出显著超越小型模型的新技能。LLMs所展示的三种典型新兴能力如下:
-
上下文学习(In-context Learning):GPT-3 首次正式引入了这一概念,当向语言模型提供自然语言指令和/或多个任务示例后,即使没有进行额外训练或梯度更新,该模型也能通过完成输入文本的词序列生成测试实例的预期输出。例如,在 GPT 系列模型中,参数规模达到1750亿的 GPT-3 在一般任务上表现出了强大的上下文学习能力,而较小规模的GPT-1和GPT-2则不具备这种能力。同时,不同任务对上下文学习的要求程度不一,如GPT-3在解决简单的算术任务时表现出色,但在处理特定复杂任务(如波斯语问答任务)时可能效果不佳。
-
指令跟随(Instruction following):通过使用多任务数据集并以自然语言描述的方式进行微调,LLMs 能够在新任务中遵循给出的指令执行任务,并且在没有显式示例的情况下展现出更好的泛化能力。实验表明,像LaMDA-PT 这样的模型经过指令调优后,当模型大小达到 68B 时,其在未见过的任务上的性能显著优于未经调优的版本,而对于更小规模如 8B 以下的模型,则无法观察到同样的优势。
-
分步推理(Step-by-step reasoning):小型语言模型通常难以处理涉及多个推理步骤的复杂任务,比如数学文字问题。然而,通过采用链式思维(chain-of-thought, CoT)提示策略,LLMs 能够利用中间推理步骤的提示机制来解决此类任务。CoT 策略使得大模型(如超过60B参数的 PaLM 和LaMDA 变体)在执行需要逐步推理的问题时获得性能提升,尤其在参数量级超过100B时,相较于标准提示的优势更加明显。此外,对于不同的任务类型,CoT 带来的性能改善程度也会有所不同,例如在某些数学问题解答基准(如 GSM8K、MAWPS 和 SWAMP)上表现各异。这些能力可能与大规模模型在训练过程中接触到大量代码相关联,从而获得了相应的技能。
-
-
关键技术(Key Techniques):
- 预训练技术:LLMs 通常采用 Transformer 架构,并基于大规模无标注语料库进行预训练,利用自回归或双向预测的语言建模任务来捕捉语言规律。
- 分布式训练算法:由于LLMs的参数数量巨大,需要采用高效的分布式训练策略和工具(如DeepSpeed和Megatron-LM)以实现模型的有效训练。
- 适应性调整:为使预训练后的LLMs更好地服务于特定应用场景,采用诸如提示工程、链式思维提示、指令调优等方法挖掘和引导模型的潜在能力。
- 一致性和控制:确保LLMs的行为符合人类价值观和伦理规范至关重要,因此研究领域也关注如何通过一致性微调、强化学习和人工反馈等方式来改进模型的输出质量,降低有害内容的生成风险。
4.2 GPT 系列模型的技术演变
大语言模型(参数>=10B)的发布时间轴:
GPT 系列模型的技术演进历程展示了预训练语言模型在规模、性能和功能方面的显著进步。自2018年首个公开的 GPT-1 发布以来,该系列模型经历了如下关键阶段:
-
GPT-1:2018年,基于生成式预训练(Generative Pre-Training)的概念,GPT-1 采用了仅包含解码器部分的 Transformer 架构,通过预测文本序列中下一个单词来学习自然语言的统计规律。
-
GPT-2:2019年,相较于 GPT-1,GPT-2 模型进一步扩大了参数量,改进了对复杂上下文的理解能力,并且在无监督学习的基础上展现出更强的语言生成能力和泛化性能。
-
GPT-3:OpenAI 于 2020年6月推出的一个里程碑式的大型语言模型,它是基于 Transformer 架构的预训练语言模型系列中的迭代版本。 GPT-3 是规模上的飞跃,其参数量达到了前所未有的数量级(175B 及1750亿),显示出模型尺寸增加带来的涌现能力提升,主要特点是其强大的零样本学习能力,即在没有针对特定任务进行微调的情况下,仅通过输入指令和少量示例,就能理解和执行多种复杂的自然语言处理任务,如问答、文本生成、代码编写等。OpenAI 在进一步提升GPT-3 模型性能方面探索了两个主要方法:
- 训练数据扩展与代码预训练:OpenAI 通过增加模型对编程和代码数据的接触,使 GPT-3 及后续版本(如GPT-4)能够更好地理解和生成代码片段。这种改进增强了模型在特定任务上的能力,尤其是涉及编程、软件开发或解释计算机指令时。
- 对齐人类偏好与行为控制:为了使大型语言模型的行为更符合人类价值观和社会规范,并且更加可信赖,OpenAI 致力于研究如何让模型在遵循指令以及处理敏感内容时表现出更好的一致性。具体做法包括利用强化学习进行提示调优(如RLHF),通过人类反馈调整模型输出以实现更准确地遵循指令,同时也关注如何在设计和使用接口(如 GPT-4 API)时让用户能有效地向模型传达任务意图和期望结果。
ChatGPT、GPT-4、GPT-4V以及GPT-4 Turbo都是OpenAI在大规模语言模型领域的重要里程碑:
-
ChatGPT:基于 GPT-3.5 架构优化的对话式AI聊天机器人,于2022年11月发布。ChatGPT 通过结合人类反馈强化学习(RLHF)技术,在与用户交互时展现出卓越的上下文理解能力、问题解答能力和生成连贯回复的能力,并且能更好地遵循指令和体现人类价值观。
-
GPT-4:是 OpenAI 在2023年3月发布的最新一代大型预训练语言模型,相较于GPT-3 系列,GPT-4 显著提升了处理复杂任务的能力,支持多模态输入,即不仅能够处理文本数据,还能够理解和利用视觉信息等其他形式的数据。此外,GPT-4通过更精细的安全性和一致性调优,对恶意或有害内容的响应进行了改进。
-
GPT-4V:又称为“GPT-4 Turbo with vision”,是在GPT-4基础上特别针对视觉能力进行强化升级的版本。该模型具备强大的视觉理解能力,可以应用于涉及图像、视频等多种多媒体输入场景的复杂应用中。
-
GPT-4 Turbo:但通常这类带有“Turbo”后缀的变体可能意味着模型性能经过进一步优化,运行速度更快或者在某些特定任务上的表现更加出色。
5. 参考
《A Survey of Large Language Models》
后续内容也在持续更新中…
欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;
也欢迎关注我的wx公众号:一个比特定乾坤