从GPT-1到GPT-3 预训练语言模型的演进与突破

本文由 ChatMoney团队出品

前言

Generative Pre-trained Transformer(GPT)系列是由OpenAI开发的预训练语言模型,它们在多种NLP任务中取得了令人瞩目的成绩,包括文章生成、代码生成、机器翻译和问答等。GPT系列模型的核心思想是通过无监督学习在大规模语料库上进行预训练,再通过少量数据进行微调以适应特定任务。随着模型容量的增加和训练数据的扩大,GPT系列模型的能力也在不断提升。

模型

发布时间

参数量

预训练数据量

GPT

2018 年 6 月

1.17 亿

约 5GB

GPT

2019 年 2 月

15 亿

40GB

GPT

2020 年 5 月

1,750 亿

45TB

GPT-1:无监督学习与通用预训练

在GPT-1问世之前,传统的自然语言处理(NLP)模型主要依赖于有监督学习,这种方法要求大量带有明确标签的数据进行任务特定的模型训练。然而,有监督学习存在两大局限性:

  1. 数据标注的挑战:高质量的标注数据往往难以获取,特别是在一些复杂场景中,如图像标注或情感分析,数据的标签可能模糊或不清晰。

  2. 模型泛化能力的局限:通过某一特定任务训练的模型往往难以直接应用于其他任务,这使得模型更像是“领域专家”而非真正理解NLP的“通才”。

GPT-1打破了这一局限,它采用了一种全新的思路:先通过无标签数据学习一个通用的语言模型,再根据具体任务进行微调。GPT-1能够处理的有监督任务包括:

  • 自然语言推理判断两个句子之间是否存在蕴含、矛盾或中立关系。

  • 问答与常识推理:类似于多选题,给定文章、问题和多个候选答案,模型需要预测每个答案的概率。

  • 语义相似度判断:确定两个句子在语义上是否相关。

  • 文本分类:识别输入文本的类别归属。

这种将无监督学习作为有监督模型预训练目标的方法,被称为通用预训练(Generative Pre-training,GPT)。

GPT-1的训练过程

GPT-1的训练分为两个阶段:无监督的预训练和有监督的微调。

1.1.1 无监督预训练

GPT-1的无监督预训练基于语言模型进行。给定一个无标签的文本序列,模型的优化目标是最大化序列中每个词的条件概率乘积,即最大化似然值。这一过程中,GPT-1使用了滑动窗口机制,并在每个窗口内计算条件概率。这些参数通过随机梯度下降(SGD)等优化算法进行更新。

GPT-1的模型结构基于Transformer架构,特别是其中的解码器部分。它采用了12个Transformer块堆叠而成,每个块都包含多头自注意力机制和全连接层,用于生成输出概率分布。

通过这种方式,GPT-1能够在无标签数据上学习语言的通用表示,为后续的有监督任务微调提供强有力的基础

1.2 GPT-1的数据集

GPT-1的训练主要基于BooksCorpus数据集,这是一个包含大量未发布书籍的集合。选择这个数据集的原因主要有两点:首先,书籍中的文本通常具有较长的上下文依赖关系,这有助于模型学习长期的依赖模式;其次,由于这些书籍未公开发布,因此在其他NLP数据集中出现的可能性较低,这进一步验证了GPT-1模型的泛化能力。

1.3 网络结构的细节

GPT-1采用了基于Transformer的架构,具体包含12层的Transformer解码器。以下是一些关键的网络结构细节:

  • 掩码自注意力机制:GPT-1使用了掩码自注意力头,确保模型在预测某个词时不会看到该词之后的任何信息,这有助于模型学习语言的自然顺序。

  • 字节对编码(BPE):GPT-1使用BPE进行文本编码,共有固定的字节对数量,这种编码方式能有效处理罕见的和未见过的词汇。

  • 词编码长度:词编码的长度设定为固定的长度,以适应不同长度的词汇。

  • 位置编码:GPT-1也学习位置编码,以捕捉序列中词的位置信息。

  • Transformer层数与头数:GPT-1包含12层的Transformer,每个Transformer块有多个自注意力头,头数设定为固定值。

  • 正则化机制:GPT-1使用了包括Attention、残差连接、Dropout等多种机制进行正则化,以防止过拟合。

  • 激活函数:GPT-1的激活函数为GELU(Gaussian Error Linear Unit),这是一种平滑的ReLU变种,有助于模型更好地学习非线性关系。

  • 训练参数:GPT-1的训练参数包括batch size、学习率、序列长度、训练轮数(epoch)等,这些参数的选择对模型的性能有重要影响。GPT-1的模型参数数量达到了数十亿级别。

1.3.1 无监督训练

在无监督训练阶段,GPT-1主要关注于最大化给定文本序列的似然值。这通过调整模型的参数,使模型能够预测序列中每个词的出现概率来实现。

1.3.2 有监督微调

在有监督微调阶段,GPT-1使用无监督训练得到的模型作为起点,针对特定NLP任务进行微调。这通常涉及调整模型的顶层结构,以适应不同任务的输出要求。通过微调,GPT-1能够在保持模型泛化能力的同时,提高在特定任务上的性能。

1.4 GPT-1的性能

GPT-1在多个NLP任务上展示了强大的性能。在有监督学习的12个基准任务中,GPT-1在9个任务上的表现超过了当时的最佳模型。在零次学习(zero-shot)任务中,GPT-1也显示出较好的稳定性,并且随着训练次数的增加,性能逐渐提升。这表明GPT-1具有较强的泛化能力,可以应用于与训练任务不直接相关的其他NLP任务中。

然而,值得注意的是,GPT-1在未经微调的任务上虽然也有一定的效果,但其性能通常低于经过微调的有监督任务。这说明GPT-1虽然在语言建模方面取得了显著进展,但仍需要在特定任务上进行微调才能充分发挥其潜力。因此,GPT-1可以被视为一个强大的“领域专家”,但还不是一个通用的语言学家。

GPT-2:多任务学习与更大的模型

GPT-2旨在通过扩展模型容量和采用更大的数据集来训练一个泛化能力更强的词向量模型。与GPT-1相比,GPT-2在模型结构上并未进行大的创新,但它在网络参数和数据集规模上有了显著的增加。下面我们将对GPT-2进行详细的介绍。

2.1 GPT-2的核心思想

GPT-2的核心思想是使用无监督的预训练模型来执行有监督的任务。基于文本数据的时序性,GPT-2将语言建模任务转化为根据已知上文预测未知下文的条件概率问题。具体来说,一个输出序列可以表示为一系列条件概率的乘积,这实际上是一个序列生成任务。

GPT-2进一步扩展了这一思想,认为当模型的容量足够大且数据量足够丰富时,仅通过训练语言模型就可以覆盖大部分有监督学习任务。这是因为有监督学习任务可以看作是无监督语言模型的一个子集。例如,在训练了包含“Micheal Jordan is the best basketball player in the history”的语料后,模型不仅学会了语言模型,还隐含地学会了回答类似“who is the best basketball player in the history?”的问题。

2.2 GPT-2的数据集

GPT-2采用了名为WebText的数据集,该数据集来源于Reddit上的高赞文章。WebText共包含约800万篇文章,总数据量约为40GB。为了避免与测试集冲突,WebText移除了与Wikipedia相关的文章。

2.3 模型参数

GPT-2在多个方面对模型参数进行了调整和优化:

  • 字典大小:使用字节对编码(BPE)构建字典,字典的大小设定为特定值,以适应不同长度的词汇。

  • 滑动窗口大小:根据模型需要设定滑动窗口的大小,用于捕获文本中的上下文信息。

  • Batch Size:为了加速训练和提高模型性能,GPT-2增大了batch size的大小。

  • Layer Normalization:在Transformer块的输入部分添加了Layer Normalization,并在每个self-attention之后也添加了一个Layer Normalization,以增强模型的稳定性。

  • 残差层缩放:GPT-2对残差层的初始化值进行了缩放,缩放因子与残差层的个数相关,以改善深层模型的训练效果。

GPT-2训练了四组不同层数和词向量长度的模型,这些模型在多个NLP任务上均取得了显著的性能提升。实验结果表明,随着模型规模的增大,GPT-2的泛化能力和性能也在不断提升。

参数量

层数

词向量长度

117M(GPT-1)

12

768

345M

24

1024

762M

36

1280

1542M

48

1600

GPT-3:海量参数与In-context Learning

GPT-3是目前最强大的语言模型之一,它凭借其巨大的参数量、庞大的训练数据集以及创新的训练方式,在各种NLP任务上均展现出了出色的性能。无需大量有标签的训练数据,GPT-3仅需零次或少数几次学习即可在下游任务中取得优异的表现。

3.1 In-context Learning

GPT-3的出色性能在很大程度上归功于其采用的In-context Learning方法。为了理解In-context Learning,我们先来探讨一下元学习(Meta-learning)的概念。元学习的核心思想是通过学习如何学习,来找到一种有效的学习策略或初始化参数,使得模型能够在新的、未见过的任务上快速适应并取得良好的性能。

In-context Learning是元学习思想的一种具体实现,它允许模型在给定一些示例的情况下,直接通过这些示例来学习并完成任务,而无需显式地更新模型参数。在GPT-3中,这种学习方式被应用于各种NLP任务中。具体来说,当给定一个新的任务时,我们可以向GPT-3提供少量的示例输入和对应的输出(即“上下文”),然后让GPT-3根据这些示例来推断并生成针对新输入的输出。通过这种方式,GPT-3能够在不依赖大量有标签训练数据的情况下,快速适应并完成各种NLP任务。

GPT-3的In-context Learning能力得益于其巨大的参数量和训练数据集。通过在大规模无监督文本数据上进行预训练,GPT-3已经学习到了丰富的语言知识和模式。这使得它能够在给定少量示例的情况下,快速理解并应用这些知识来完成新任务。同时,GPT-3的巨大参数量也使其具备了强大的表征能力,能够捕捉并表达复杂的语言现象和语义关系。

除了In-context Learning外,GPT-3还采用了多种先进的技术和策略来提高其性能和泛化能力。例如,GPT-3采用了Transformer架构的变体,并引入了稀疏自注意力机制来降低计算复杂度。此外,GPT-3还使用了混合精度训练、数据并行等技术来加速训练过程并减少资源消耗。这些技术和策略共同使得GPT-3成为了一个强大而高效的语言模型。

总结

GPT系列模型的发展历程展示了预训练语言模型的强大潜力和广阔前景。随着模型容量的不断增加和训练数据的不断扩大,我们可以期待未来会有更加强大和智能的NLP模型出现。

关于我们

本文由ChatMoney团队出品,ChatMoney专注于AI应用落地与变现,我们提供全套、持续更新的AI源码系统与可执行的变现方案,致力于帮助更多人利用AI来变现,欢迎进入ChatMoney获取更多AI变现方案!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/40954.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库开发:mysql基础一

文章目录 数据库开发Day15:MySQL基础(一)一、MySQL介绍与安装【1】MySQL介绍(5)启动MySQL服务(6)修改root登陆密码 二、SQL简介三、数据库操作四、数据表操作4.1、数据库数据类型4.2、创建数据表…

对标 GPT-4o 的开源实时语音多模态模型:Moshi

是由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,支持听、说、看,最关键的是你现在就可以在浏览器中使用,如果这个链接延迟高,可以试试这个, 无需输入邮箱,点击 Join queue 即可。 简单体验了下,比…

#### golang中【堆】的使用及底层 ####

声明,本文部分内容摘自: Go: 深入理解堆实现及应用-腾讯云开发者社区-腾讯云 数组实现堆 | WXue 堆(Heap)是实现优先队列的数据结构,Go提供了接口和方法来操作堆。 应用 package mainimport ("container/heap&q…

结构方程模型-验证性因子分析模型

初级 第7讲 验证性因子分析模_哔哩哔哩_bilibili

使用 ESP32 接收来自 MAX4466 模拟麦克风模块的数据,并通过 DAC 输出模拟音频信号,可以通过以下步骤实现:

硬件准备 ESP32 开发板MAX4466 模拟麦克风模块扬声器或耳机接线 MAX4466 模块输出(AO) -> ESP32 ADC 引脚(如 GPIO 34)ESP32 DAC 引脚(如 GPIO 25 或 GPIO 26) -> 扬声器或耳机软件准备 音频采集DAC 转码并播放代码实现 以下代码展示了如何从 MAX4466 读取模拟音频…

【Go语言入门学习笔记】Part7.闭包和defer关键字

一、前言 闭包有点像对象,而defer适合于类似功能中利用资源时,提前写几句defer 释放资源,防止后面释放资源忘记写释放资源。 二、学习代码 package mainimport ("fmt" )// getC的返回值是一个函数,需要的参数为空&…

GitHub Pull Request流程详解

GitHub Pull Request流程详解 在协作开发中,GitHub的Pull Request(PR)功能至关重要,它允许开发者在代码库中进行修改、审查和合并代码。本文将详细介绍GitHub Pull Request的完整流程,帮助你更好地理解和使用这一强大…

网络安全的十字路口:向“架构化”转移

市场条件正在快速变化 针对上述这些问题,在这段时间里,安全技术供应商推出了许多技术解决方案,比如SIEM、SOAR、XDR、UEBA等,但新产品的推出并未使得安全态势有所好转,许多问题依然存在,这导致了市场动态的…

【DevOps】Java内存分配与JVM参数详解

目录 引言 JVM内存结构 JVM参数概述 堆内存分配 年轻代与老年代 调整堆内存大小 调整年轻代与老年代比例 元空间分配 调整元空间大小 垃圾回收 调整GC参数 调整GC日志 线程栈分配 调整线程栈大小 性能调优 结论 在Java开发中,理解Java虚拟机&#x…

claude3.5写作——《基于灰色预测的中国人口数量预测》

文章目录 站点和提问引言一、灰色预测模型介绍二、中国历年人口数据三、灰色预测模型的建立1.建立原始序列2.生成1-AGO序列3.计算背景值4.构造数据矩阵并计算参数5.模型检验6.模型预测 四、预测结果分析五、政策建议结语参考文献 站点和提问 站点:中国官方克劳德3.…

如何更改 Python pip 源为国内源

在使用 Python 安装包工具 pip 时,经常会遇到下载速度慢的问题。这通常是因为默认使用的官方源 https://pypi.org/simple 在国内访问速度较慢。为了提高下载速度,我们可以将 pip 源更改为国内的镜像源。本文将介绍如何临时和永久地更改 pip 源为国内源。…

光伏电站数据采集方案(基于工业路由器部署)

​ 一、方案概述 本方案采用星创易联SR500工业路由器作为核心网关设备,实现对光伏电站现场数据的实时采集、安全传输和远程监控。SR500具备多接口、多功能、高可靠性等特点,能够满足光伏电站数据采集的各种需求。(key-iot.com/iotlist/sr500…

RK3568平台(opencv篇)ubuntu18.04上安装opencv环境

一.什么是 OpenCV-Python OpenCV-Python 是一个 Python 绑定库,旨在解决计算机视觉问题。   Python 是一种由 Guido van Rossum 开发的通用编程语言,它很快就变得非常流行,主要是 因为它的简单性和代码可读性。它使程序员能够用更少的代码行…

C++ 运算符的优先级和关联性表

C 运算符的优先级和关联性表 1. Precedence and associativity (优先级和结合性)2. Alternative spellings (替代拼写)3. C operator precedence and associativity table (C 运算符的优先级和关联性表)References C documentation (C 文档) https://learn.microsoft.com/en-us…

网络IO模型之多路复用器.md

多路复用是什么?怎么理解? 本文主要涉及为 程序中处理网络IO时的模型,对于系统内核而言网络IO模型。这里只做普及使用 前置知识,什么是IO?怎么理解IO IO其实就是In和Out。中文翻译是输入和输出,只要涉及到输…

clone()方法

在Java中,clone() 方法是一个非常有趣且强大的工具,用于创建对象的一个副本。这个方法位于 Object 类中,因此可以被所有类使用。让我们讨论一下它的几个要点: 什么是克隆? 克隆就是创建一个对象的新副本,这…

2005-2022全国及各省家庭承包耕地流转总面积及经营耕地面积数据(无缺失)

2005-2022全国及各省家庭承包耕地流转总面积及经营耕地面积数据(无缺失) 1、时间:2005-2022年 2、范围:全国及30省 3、指标:家庭承包耕地流转总面积、家庭承包经营耕地面积、土地流转率、 4、来源:农村…

《web应用技术》第十一次课后作业

验证过滤器进行权限验证的原理。 创建Filter: package com.example.filter;import javax.servlet.*; import javax.servlet.annotation.WebFilter; import java.io.IOException;WebFilter(urlPatterns "/*") public class DemoFilter implements Filter …

【3维BFS】个人练习-Leetcode-LCP 79. 提取咒文

题目链接:https://leetcode.cn/problems/kjpLFZ/ 题目大意:给一个矩阵matrix[][],元素为小写英文字母。给一个字符串mantra,求从矩阵的(0,0)位置开始,可以移动(上下左右)或者提取字母&#xff…

怎么搭建个人博客教程,附云主机选购指南

一、搭建个人博客教程 1. 规划博客内容与技术栈 确定博客主题:首先明确博客的定位和主题,这将影响后续的技术选择和内容规划。选择技术栈:根据个人偏好和技术背景,选择合适的建站技术。例如,可以使用WordPress&#…