NLP深入学习:《A Survey of Large Language Models》详细学习(一)

文章目录

  • 1. 前言
  • 2. 摘要部分
  • 3. 引言部分
  • 4. Overview 部分
    • 4.1 LLMs 背景
    • 4.2 GPT 系列模型的技术演变
  • 5. 参考


1. 前言

最近正在读这边 LLM 论文的综述,鉴于读得费劲,如果将整个论文读完再来写会比较费劲。当前采取的策略是部分内容走读+记录,论文原文见《A Survey of Large Language Models》

本文先讲解摘要、引言以及 Overview部分,后续内容在持续更新中。

2. 摘要部分

鉴于摘要的重要性,这里不提炼,而是直接给出翻译的结果:

摘要:自20世纪50年代图灵测试被提出以来,人类一直在探索如何让机器掌握语言智能。语言本质上是受语法规则支配的复杂的人类表达系统,发展出能够理解和掌握语言的强大人工智能(AI)算法是一项重大挑战。在过去二十年间,随着统计语言模型向神经网络语言模型的发展,语言建模作为主要方法在语言理解和生成方面得到了广泛应用。最近,预训练语言模型(PLMs)通过大规模语料库上对 Transformer 模型进行预训练而得以提出,展现出了在解决各种自然语言处理(NLP)任务方面的强大能力。研究者发现模型规模的增大可以提高模型容量,于是进一步通过增加参数规模至更大程度来探究扩展效应。有趣的是,当参数规模超过某一阈值时,这些扩大的语言模型不仅实现了显著的性能提升,还展现出一些小型语言模型(如BERT)所不具备的特殊能力(例如上下文学习)。为了区分不同参数规模下的语言模型,研究界将含有数十亿乃至数百亿参数的PLMs称为大型语言模型(LLMs)。近年来,学术界和工业界在 LLMs 领域的研究取得了显著进展,其中最引人注目的是基于LLMs开发的强大AI聊天机器人 ChatGPT 的发布,引起了社会的广泛关注。LLMs技术的进步正在对整个 AI 社区产生重要影响,并可能彻底改变我们开发和使用AI算法的方式。鉴于这一快速的技术进步,本调查报告回顾了LLMs的最新进展,介绍了背景、关键发现和主流技术。特别是,我们专注于LLMs的四个主要方面,即预训练、适应性微调、应用及容量评估,并总结了可用于开发LLMs的资源以及未来研究方向面临的遗留问题。这份调查为LLMs的相关文献提供了最新的综述,对于研究人员和工程师而言是一份有用的参考资料。
关键词:大型语言模型;涌现能力;适应性调整;应用;一致性评估

3. 引言部分

大型语言模型(LLMs)的发展可以分为四个主要阶段:
在这里插入图片描述

  1. 统计语言模型(SLM)阶段:始于20世纪90年代,这类模型基于统计学习方法构建,如马尔可夫假设,通过分析历史上下文预测下一个词汇的概率。代表性工作包括 n-gram 语言模型,其中二元和三元模型是典型代表。尽管在信息检索和自然语言处理任务中有广泛应用,但 SLM 受困于维度灾难问题,即随着模型复杂度提高,需要估计的高阶转移概率数量呈指数级增长,导致数据稀疏性问题。为解决这一问题,研究者引入了平滑技术,如回退估计和图灵估计。

  2. 神经网络语言模型(NLM)阶段:进入本世纪后,随着神经网络技术的发展,NLMs 开始利用多层感知器、循环神经网络等结构来表征文本序列的概率分布,并提出分布式词表示的概念,使得模型能够根据上下文特征进行单词预测。这一阶段的突破性进展在于引入了更强大和灵活的特征学习机制,提高了对语言理解和生成任务的处理能力。

  3. 预训练语言模型(PLM)阶段:以 BERT 和 Transformer 架构为代表,预训练模型在大规模无标签文本上进行自我监督学习,然后针对具体任务进行微调。这种“预训练+微调”的策略显著提升了模型在各种 NLP 任务上的表现,特别是当模型参数规模逐渐增大时,显示出更强的语言理解能力和泛化性能。

  4. 大型语言模型(LLM)阶段:进一步扩展了预训练模型的规模,拥有数十亿乃至数百亿参数量的 LLMs 不仅在传统任务上表现优越,还展示出了一些小规模模型所不具备的“涌现能力”,例如 GPT-3 及其后续版本在无需特定任务训练的情况下,仅通过上下文学习就能执行多种任务。此外,LLMs 改变了人们开发和使用 AI 算法的方式,促使研究人员和工程师更多地关注如何有效地利用和调整这些模型以解决实际问题,同时探索模型的能力边界以及与人类价值观和道德规范的一致性问题。

从最初基于统计规律的 SLM 到如今具备高级认知能力的 LLMs,语言模型技术经历了逐步演化和发展,不断扩大其应用范围并深刻影响着人工智能领域的进步。

4. Overview 部分

4.1 LLMs 背景

大型语言模型(LLMs)的基本背景涵盖了多个关键方面:

  1. 缩放定律(Scaling Laws):LLMs 的性能与模型大小、数据量以及计算资源之间存在着密切关系。研究人员发现,随着模型参数规模的增长,通过遵循一定的幂律关系(如 KM 缩放定律),模型性能可以显著提升。例如,GPT-3 和 PaLM 等模型分别扩展至1750亿和5400亿参数级别,以验证这种规模效应。研究者还探讨了如何在有限的计算预算下更高效地分配资源,比如 Chinchilla 模型通过增加训练数据量而非单纯增大模型尺寸来优化性能。

  2. 涌现能力(Emergent Abilities):当LLMs达到一定规模后,它们展现出了一些小型模型所不具备的特殊能力。这些“涌现”能力包括上下文学习,在未经过特定任务微调的情况下能够理解并响应复杂指令;以及对新任务的适应性,即基于给定的输入示例就能够推断出相应的输出模式。这表明大模型可能具有更强的泛化能力和生成多样、准确文本的能力。这种能力并非线性或连续地随模型尺度扩大而出现,而是当模型超过某个阈值时突然展现出显著超越小型模型的新技能。LLMs所展示的三种典型新兴能力如下:

    • 上下文学习(In-context Learning):GPT-3 首次正式引入了这一概念,当向语言模型提供自然语言指令和/或多个任务示例后,即使没有进行额外训练或梯度更新,该模型也能通过完成输入文本的词序列生成测试实例的预期输出。例如,在 GPT 系列模型中,参数规模达到1750亿的 GPT-3 在一般任务上表现出了强大的上下文学习能力,而较小规模的GPT-1和GPT-2则不具备这种能力。同时,不同任务对上下文学习的要求程度不一,如GPT-3在解决简单的算术任务时表现出色,但在处理特定复杂任务(如波斯语问答任务)时可能效果不佳。

    • 指令跟随(Instruction following):通过使用多任务数据集并以自然语言描述的方式进行微调,LLMs 能够在新任务中遵循给出的指令执行任务,并且在没有显式示例的情况下展现出更好的泛化能力。实验表明,像LaMDA-PT 这样的模型经过指令调优后,当模型大小达到 68B 时,其在未见过的任务上的性能显著优于未经调优的版本,而对于更小规模如 8B 以下的模型,则无法观察到同样的优势。

    • 分步推理(Step-by-step reasoning):小型语言模型通常难以处理涉及多个推理步骤的复杂任务,比如数学文字问题。然而,通过采用链式思维(chain-of-thought, CoT)提示策略,LLMs 能够利用中间推理步骤的提示机制来解决此类任务。CoT 策略使得大模型(如超过60B参数的 PaLM 和LaMDA 变体)在执行需要逐步推理的问题时获得性能提升,尤其在参数量级超过100B时,相较于标准提示的优势更加明显。此外,对于不同的任务类型,CoT 带来的性能改善程度也会有所不同,例如在某些数学问题解答基准(如 GSM8K、MAWPS 和 SWAMP)上表现各异。这些能力可能与大规模模型在训练过程中接触到大量代码相关联,从而获得了相应的技能。

  3. 关键技术(Key Techniques)

    • 预训练技术:LLMs 通常采用 Transformer 架构,并基于大规模无标注语料库进行预训练,利用自回归或双向预测的语言建模任务来捕捉语言规律。
    • 分布式训练算法:由于LLMs的参数数量巨大,需要采用高效的分布式训练策略和工具(如DeepSpeed和Megatron-LM)以实现模型的有效训练。
    • 适应性调整:为使预训练后的LLMs更好地服务于特定应用场景,采用诸如提示工程、链式思维提示、指令调优等方法挖掘和引导模型的潜在能力。
    • 一致性和控制:确保LLMs的行为符合人类价值观和伦理规范至关重要,因此研究领域也关注如何通过一致性微调、强化学习和人工反馈等方式来改进模型的输出质量,降低有害内容的生成风险。

4.2 GPT 系列模型的技术演变

大语言模型(参数>=10B)的发布时间轴:
在这里插入图片描述
GPT 系列模型的技术演进历程展示了预训练语言模型在规模、性能和功能方面的显著进步。自2018年首个公开的 GPT-1 发布以来,该系列模型经历了如下关键阶段:

  1. GPT-1:2018年,基于生成式预训练(Generative Pre-Training)的概念,GPT-1 采用了仅包含解码器部分的 Transformer 架构,通过预测文本序列中下一个单词来学习自然语言的统计规律。

  2. GPT-2:2019年,相较于 GPT-1,GPT-2 模型进一步扩大了参数量,改进了对复杂上下文的理解能力,并且在无监督学习的基础上展现出更强的语言生成能力和泛化性能。

  3. GPT-3:OpenAI 于 2020年6月推出的一个里程碑式的大型语言模型,它是基于 Transformer 架构的预训练语言模型系列中的迭代版本。 GPT-3 是规模上的飞跃,其参数量达到了前所未有的数量级(175B 及1750亿),显示出模型尺寸增加带来的涌现能力提升,主要特点是其强大的零样本学习能力,即在没有针对特定任务进行微调的情况下,仅通过输入指令和少量示例,就能理解和执行多种复杂的自然语言处理任务,如问答、文本生成、代码编写等。OpenAI 在进一步提升GPT-3 模型性能方面探索了两个主要方法:

    1. 训练数据扩展与代码预训练:OpenAI 通过增加模型对编程和代码数据的接触,使 GPT-3 及后续版本(如GPT-4)能够更好地理解和生成代码片段。这种改进增强了模型在特定任务上的能力,尤其是涉及编程、软件开发或解释计算机指令时。
    2. 对齐人类偏好与行为控制:为了使大型语言模型的行为更符合人类价值观和社会规范,并且更加可信赖,OpenAI 致力于研究如何让模型在遵循指令以及处理敏感内容时表现出更好的一致性。具体做法包括利用强化学习进行提示调优(如RLHF),通过人类反馈调整模型输出以实现更准确地遵循指令,同时也关注如何在设计和使用接口(如 GPT-4 API)时让用户能有效地向模型传达任务意图和期望结果。
      ChatGPT、GPT-4、GPT-4V以及GPT-4 Turbo都是OpenAI在大规模语言模型领域的重要里程碑:
  4. ChatGPT:基于 GPT-3.5 架构优化的对话式AI聊天机器人,于2022年11月发布。ChatGPT 通过结合人类反馈强化学习(RLHF)技术,在与用户交互时展现出卓越的上下文理解能力、问题解答能力和生成连贯回复的能力,并且能更好地遵循指令和体现人类价值观。

  5. GPT-4:是 OpenAI 在2023年3月发布的最新一代大型预训练语言模型,相较于GPT-3 系列,GPT-4 显著提升了处理复杂任务的能力,支持多模态输入,即不仅能够处理文本数据,还能够理解和利用视觉信息等其他形式的数据。此外,GPT-4通过更精细的安全性和一致性调优,对恶意或有害内容的响应进行了改进。

  6. GPT-4V:又称为“GPT-4 Turbo with vision”,是在GPT-4基础上特别针对视觉能力进行强化升级的版本。该模型具备强大的视觉理解能力,可以应用于涉及图像、视频等多种多媒体输入场景的复杂应用中。

  7. GPT-4 Turbo:但通常这类带有“Turbo”后缀的变体可能意味着模型性能经过进一步优化,运行速度更快或者在某些特定任务上的表现更加出色。

5. 参考

《A Survey of Large Language Models》

后续内容也在持续更新中…

欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

也欢迎关注我的wx公众号:一个比特定乾坤

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/666842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3 编辑器(Vim)

1.完成 vimtutor。备注:它在一个 80x24(80 列,24 行) 终端窗口看起来效果最好。 2.下载我们提供的 vimrc,然后把它保存到 ~/.vimrc。 通读这个注释详细的文件 (用 Vim!), 然后观察 …

ref和reactive, toRefs的使用

看尤雨溪说:为什么Vue3 中应该使用 Ref 而不是 Reactive? toRefs import { ref, toRefs } from vue;// 定义一个响应式对象 const state ref({count: 0,name: Vue });// 使用toRefs转换为响应式引用对象 const reactiveState toRefs(state);// 现在你…

深入理解TCP网络协议(3)

目录 1.前言 2.流量控制 2.阻塞控制 3.延时应答 4.捎带应答 5.面向字节流 6.缓冲区 7.粘包问题 8.TCP异常情况 9.小结 1.前言 在前面的博客中,我们重点介绍了TCP协议的一些属性,有连接属性的三次握手和四次挥手,还有保证数据安全的重传机制和确认应答,还有为了提高效率…

vue3 之 组合式API—watch函数

watch函数 作用:侦听一个或者多个数据的变化,数据变化时执行回调函数 两个额外参数: 1.immediate(立即执行)2.deep(深度侦听) 场景:比如选择不同的内容请求后端不同数据时 如下图 …

重写Sylar基于协程的服务器(4、协程调度模块的设计)

重写Sylar基于协程的服务器(4、协程调度模块的设计) 重写Sylar基于协程的服务器系列: 重写Sylar基于协程的服务器(0、搭建开发环境以及项目框架 || 下载编译简化版Sylar) 重写Sylar基于协程的服务器(1、日…

华为机考入门python3--(8)牛客8-合并表记录

分类:字典排序 知识点: 将输入转成int的列表 my_list list(map(int, input().strip().split( ))) 将列表转为元组 tuple(my_list) 访问元素为元组的列表 for first, second, third in my_list: 对字典进行排序 sorted(my_dict.items())…

负载均衡下的webshell上传+nginx解析漏洞

负载均衡下的webshell上传 一,负载均衡下webshell上传的四大难点 难点一:需要在每一台节点的相同位置上传相同内容的webshell 我们需要在每一台节点的相同位置都上传相同内容的 WebShell一旦有一台机器上没有,那么在请求轮到这台机器上的时…

处理SERVLET中的错误

处理SERVLET中的错误 问题陈述 一位用户在使用在线计算机应用程序时输入一个非数字字符做数字加法。servlet试图将用户输入的值转换成整数型时,引发了NumberFormException类型的异常。要创建一个Web应用程序来使用自定义错误页面处理该异常。该自定义错误页面需要向用户提供关…

【Linux】Ext2 文件系统

文件系统 前言一、磁盘硬件1. 磁盘的物理存储结构2. 磁盘存储的逻辑抽象结构 二、理解 Ext2 文件系统1. 初步理解文件系统2. 深入理解文件系统(1)inode Table(2)Data blocks(3)inode Bitmap(4&a…

【Vue】2-9、Vue-CLI 脚手架

一、单页面程序 什么是单页面程序? 单页面程序(Single Page Application)简称 SPA,顾名思义,指的是一个 Web 网站中只有唯一一个 HTML 页面,所有的功能与交互都在这唯一的一个页面内完成。 二、Vue-CLI …

万能写作辅助器设计

为了构建一个万能写作辅助器,我们需要设计几个关键组件,每个组件都有其特定的功能和交互方式。以下是这些组件的详细设计和描述: 对话生成器(Dialogue Generator) 功能:生成对话内容。输入:可接受拖拽过来的组件,如角色名称、情感标签、场景描述等。管理:能够管理各种…

【学习笔记】详解换根法(换根DP)

一.换根DP的概念 1.换根DP是什么? 换根DP,又叫二次扫描,是树形DP的一种。 2.换根DP能解决什么问题? 换根DP能解决不指定根结点,并且根节点的变化会对一些值产生影响的问题。例如子结点深度和、点权和等。如果要 暴力…

java社区养老年人服务系统springboot+vue

为了帮助用户更好的了解和理解程序的开发流程与相关内容,本文将通过六个章节进行内容阐述。 第一章:描述了程序的开发背景,程序运用于现实生活的目的与意义,以及程序文档的结构安排信息; 第二章:描述了程序…

python Cloudflare 批量关闭IPv6兼容性脚本

Cloudflare免费版控制台不给关IPv6,需要使用API关闭,先从我的个人资料里面申请API令牌,再执行脚本 import requests import jsonheaders {X-Auth-Email:cloudflare登入账户, #输入登入账户的邮箱X-Auth-Key: Global API Key, #输入上图申请…

数据结构(C语言)代码实现(六)——单链表的实现

目录 参考、格式 头文件LinkList.h 一、将函数的小括号写成中括号 二、读取权限冲突 三、L->Last指针没有移动 四、函数指针的使用 头文件完整代码 测试函数(主函数)test.cpp 测试结果 参考、格式 数据结构课本2.3节(严蔚敏版&a…

嵌入式学习第三篇——51单片机

目录 1,嵌入式系统 1,嵌入式系统的定义 2,单片机的定义 2,51单片机 1,开发环境 2,开发板使用的基本思路 1,查看原理图,查看芯片手册 2,获得调用硬件的管…

博途PLC限幅器(SCL代码)

PLC限幅器详细介绍,可以参考下面文章: https://rxxw-control.blog.csdn.net/article/details/128701050https://rxxw-control.blog.csdn.net/article/details/128701050三菱PLC限幅器 https://rxxw-control.blog.csdn.net/article/details/135212965

自研人工智能小工具-小蜜蜂(国外ChatGpt的平替)

国内有非常多好用的人工智能工具,但均无法完全替代国外ChatGpt。 ChatGPT相较于其他国内工具的优势在于以下几点: 创新的语言生成能力:ChatGPT是由OpenAI开发的先进的自然语言生成模型,它采用了大规模的预训练和精细调整方法。因此…

初探unity中的ECS

ECS是一种软件架构模式,就像MVC一样。ECS最早在游戏《守望先锋》中提及到的相关链接。ECS具体是指实体(entity)、 组件(component)和系统(system): 实体:实体是一个ID&a…

27. 云原生流量治理之kubesphere灰度发布

云原生专栏大纲 文章目录 灰度发布介绍灰度发布策略KubeSphere中恢复发布策略蓝绿部署金丝雀发布流量镜像 灰度发布实战部署自制应用金丝雀发布创建金丝雀发布任务测试金丝雀发布情况 蓝绿部署创建蓝绿部署测试蓝绿部署情况 流量镜像创建流量进行任务测试流量镜像情况 灰度发布…