【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning）

【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning）

pingmian/2025/4/26 19:57:25/文章来源:https://blog.csdn.net/imwaters/article/details/138066600

主要参考

【GPT，GPT-2，GPT-3 论文精读【李沐论文精读】-2022.03.04】 https://www.bilibili.com/video/BV1AF411b7xQ/
大语言模型综述： http://t.csdnimg.cn/4obR4
在这里插入图片描述

发展节点

2017.06 Transformer: 所有大语言模型LLMs的基础结构 , Attention is all you need !
2018.06 GPT: 只用Transformer解码器,只预测未来：Improving language understanding by Generative Pre-Traning
2018.10 BERT：对标GPT，编解码结构，完型填空
2019.02 GPT-2: 更大的数据集： Language Models are Unsupervised Multitast Learner
2020.05 GPT-3: 相对于GPT-2数据和模型都大了100倍（极少数公司能做）
GPT-3:Language models are few-shot learners

一、GPT-1: 使用大量没有标记文本无监督训练（Generative Pre-Traning ）

论文：利用生成式预训练来提高自然语言理解
Improving language understanding by Generative Pre-Traning

二阶段训练模型：大量无标记文本 + 人工标注任务

通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构上，只用Transformer的编码器预测（预测未来）见下图左侧
损失函数上是与bert不同的
通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构与应用（预训练后，在有标注文本训练下流任务）

开始符号、结束符号、终止符
下图（左），表示Transformer架构和训练目标。
下图(右)，表示微调不同任务的输入转换示意。将所有结构化输入转换为由我们的预训练模型处理的标记序列，然后是线性+softmax 层。
其中，右侧绿色transformer块表示第一阶段得到的预训练模型
在这里插入图片描述

“Extract” ：指从模型的某个部分提取信息或特征的过程。模型会处理文本，提取和学习复杂的特征和模式。这个过程可以被视作是在“抽取”输入文本的语义和句法信息
Delim”则可能是“Delimiter”的缩写，指的是分隔符。在自然语言处理任务中，分隔符用于区分文本中的不同部分
分隔符可以用来明确哪部分是前提（Premise），哪部分是假设（Hypothesis）。在处理输入数据时，模型会识别这些分隔符，以便正确地解析和处理各部分信息。

二、GPT-2: 语言模型是无监督的多任务学习器

论文：Language Models are Unsupervised Multitast Learner

参数15亿，Bert 1.3亿，参数相差大，但是性能差别不大，主要创新点是zero-shot:
无监督训练后，不微调下游任务——没有任何参数或架构修改

输入更像自然语言
语言翻译：
(translate to french, english text, french text)
阅读理解
(answer the question, document, question, answer)

三、GPT-3 : 基于gpt-2,细节不明（无监督训练，不需要参数更新就能学会各种任务）

20.05.Language models are few-shot learners

不用再进行模型参数更新，就能直接适应下游任务

零样本、少样本学习的关系

zero-shot:零样本：表示不训练，也不给示例，直接说一句功能（例如翻译英文到中文）
one-shot :一张范例：表示给出一个范例
few-show:给出多个范例
在这里插入图片描述

模型大小与少样本学习性能关系：少样本、零样本学习的准确率关系

实验表明：GPT3参数量扩大几百倍后，少量样本（few-shot）的学习，**准确率从20%左右到了50%**多

在这里插入图片描述

8个不同大小的模型

模型的大小、架构和学习超参数（令牌中的批量大小和学习率）。所有模型都训练了总共 300 亿个令牌。
在这里插入图片描述

用的数据集

在这里插入图片描述

附录

作者信息

GPT-1

在这里插入图片描述

GPT-2

在这里插入图片描述

GPT-3

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/1899.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【六十二】【算法分析与设计】买苹果_牛客题霸_牛客网,牛牛爱博弈,829. 连续整数求和,对数器找规律法,博弈论2^k移动对3取余规律,取余的性质整除性

【六十二】【算法分析与设计】买苹果_牛客题霸_牛客网,牛牛爱博弈,829. 连续整数求和,对数器找规律法,博弈论2^k移动对3取余规律,取余的性质整除性

买苹果_牛客题霸_牛客网描述小易去附近的商店买苹果，奸诈的商贩使用了捆绑交易，只提供6个每袋和8个每袋的包装(包装不可拆分)。可是小易现在只想购买恰好n个苹果，小易想购买尽量少的袋数方便携带。如果不能购买恰好n个苹果，小易…

阅读更多...

2元4mm2高精度温度湿度传感器GXHTC3

2元4mm2高精度温度湿度传感器GXHTC3

温湿度传感器芯片GXHTC3 前言： 该温湿度传感器为国产，批量价格约2元，精度较高，DHT11该被淘汰了，这个才是传感器。特点超低功耗宽工作电压范围(1.62 – 5.5 V) 小型 DFN 封装: 2 2 0.75 mm3 典型精度: 湿度 2 %R…

阅读更多...

创新与乐趣的融合 —— 探索我们独家录音变音芯片在学舌玩具领域的应用

创新与乐趣的融合 —— 探索我们独家录音变音芯片在学舌玩具领域的应用

一：概述学舌玩具，又称作复读玩具或模仿玩具，是一类设计用来录制人声并重复播放的互动式玩具。这类玩具以其能够模仿人类语音的特性而受到小朋友和宠物主人的喜爱。这些玩具通常具有以下特点和功能： 1. 录音和播放功能&#xff…

阅读更多...

sc2024项目consul

sc2024项目consul

1. 什么是consul HashiCorp Consul是一款服务网络解决方案，可让团队管理服务之间以及内部部署和多云环境及运行时的安全网络连接。consul提供服务发现、服务治理、流量管理和对网络基础设施设备的自动更新。(添加链接描述)Consul使用Go语言开发 2. 功能多数据中…

阅读更多...

Mysql基础（二）数据类型和约束

Mysql基础（二）数据类型和约束

一数据类型讲解主要的数据类型,不面面俱到,后续遇到具体问题再查询补充扩展： 知识点的深度和广度以工作为导向 ① int float M : 表示显示宽度，M的取值范围是(0, 255)例如: int(5),当数据宽度小于5位的时候在数字前面需要用字符填满宽度说明&…

阅读更多...

单链表题目

单链表题目

1.单向链表中的每个结点都需要动态分配内存空间。✔ 2.用链表代替数组进行数据操作时，查询更加方便。✘ 数组进行数据查询会更方便 3.链表是动态存储分配的数据结构。根据需要动态地开辟内存空间，可以比较自由方便地插入新元素（结点)&#x…

阅读更多...

【Linux】对system V本地通信的内核级理解

【Linux】对system V本地通信的内核级理解

一、system V版本的进程间通信技术通过之前的学习，我们大致可以感受出来，共享内存，消息队列和信号量在使用的时候是有很多共性的。它们三个的接口，包括接口中传的参数有的都有很大的相似度。其实，共享内存&#xff…

阅读更多...

05 JavaScript学习：语法

05 JavaScript学习：语法

JavaScript 是一种动态类型的脚本语言，广泛用于网页开发和构建交互式网页。JavaScript 的语法相对简单，但功能强大，它可以在客户端执行，并与HTML和CSS一起构建交互式的网页。 JavaScript 字面量在 JavaScript 中，字…

阅读更多...

面试题集中营—GC日志简析及频繁GC的调优

面试题集中营—GC日志简析及频繁GC的调优

如何查看GC日志有两种方式查看GC日志，一种是动态命令行查看 jstat -gc <pid> 300 5 第二种就是在JVM参数中增加打印的参数，如下： -XX:PrintGCDetails -XX:PrintGCTimeStamps 表示打印每次GC的日志以及GC发生的时间 -Xloggc:gc.log …

阅读更多...

IDEA 2024.1 配置 AspectJ环境

IDEA 2024.1 配置 AspectJ环境

最近Java课设在学习AspectJ，做PPT顺便写一个博客下载包首先去AspectJ官网下载一个JAR包并安装安装完最后可以按照他的建议配置一下然后找到AspectJ的安装位置的lib目录，把三个包拷到自己项目中的lib目录下由于最新版的IDEA已经不支持AspectJ了所…

阅读更多...

mysql基础1——数据存储

mysql基础1——数据存储

mysql数据存储共有4步 1）创建数据库 2)确认字段 3)创建数据表 4)插入数据 1）创建数据库从系统架构看mysql数据库系统依次是数据库服务器，数据库，数据表和数据表的行与列安装程序-->安装了数据库服务器所有要做的第…

阅读更多...

git版本控制系统（git详细代码大全）

git版本控制系统（git详细代码大全）

一、git介绍 1.git概念版本控制系统 (VCS)：跟踪文件的变化，以便在需要时可以回溯到先前的状态。仓库 (Repository)：存储项目的所有文件和历史记录的地方。提交 (Commit)：保存项目更改的快照，并记录相应的元数据&…

阅读更多...

OpenHarmony开发实例：【待办事项TodoList】

OpenHarmony开发实例：【待办事项TodoList】

简介 TodoList应用是基于OpenHarmony SDK开发的安装在润和HiSpark Taurus AI Camera(Hi3516d)开发板标准系统上的应用；应用主要功能是以列表的形式，展示需要完成的日程；通过本demo可以学习到 JS UI 框架List使用； 运行效果样例…

阅读更多...

前端三剑客 HTML+CSS+JavaScript ③ HTML标准结构

前端三剑客 HTML+CSS+JavaScript ③ HTML标准结构

生活没有任何意义，这就是活着的理由，而且是唯一的理由 —— 24.4.22 一、HTML注释 1.特点注释的内容会被浏览器所忽略，不会呈现到页面中，但源代码中依然可见 2.作用对代码进行解释和说明 3.写法  <html&…

阅读更多...

上位机图像处理和嵌入式模块部署（树莓派4b使用pcl点云库）

上位机图像处理和嵌入式模块部署（树莓派4b使用pcl点云库）

【声明：版权所有，欢迎转载，请勿用于商业用途。联系信箱：feixiaoxing 163.com】图像处理，大家都知道它有显著的优点和缺点。优点就是分辨率高，信息丰富。缺点就是，整个图像本身没有深度信息。…

阅读更多...

高效可扩展，使用Dask进行大数据分析

高效可扩展，使用Dask进行大数据分析

大家好，Dask技术作为并行计算领域的创新力量，正在重塑大数据的处理模式。这项开源项目为Python语言带来了强大的并行计算能力，突破了传统数据处理在扩展性和性能上的瓶颈。本文将介绍Dask的发展历程、架构设计，并分析其在大数据…

阅读更多...

maven exec plugin启动springboot应用并且change port更改端口（多模块）

maven exec plugin启动springboot应用并且change port更改端口（多模块）

<plugin><groupId>org.codehaus.mojo</groupId><artifactId>exec-maven-plugin</artifactId><version>3.2.0</version> <configuration><executable>java</executable><arg…

阅读更多...

Vue中的 keep-alive 实现原理

Vue中的 keep-alive 实现原理

Vue中的 keep-alive 实现原理 keep-alive 用法实现原理源码展示源码分析 keep-alive 用法官方文档：keep-alive 的用法 keep-alive 的作用：主要用于保留组件状态或避免重新渲染。keep-alive 包裹动态组件时，会缓存不活动的组件实例&#xff0…

阅读更多...

常用推理框架介绍

常用推理框架介绍

vLLM GitHub链接：https://github.com/vLLM/vllm优势：利用CPU的向量化指令集实现推理加速，适合在没有强大GPU资源的场景下使用。选择建议：如果你主要使用CPU进行推理，或者希望在不依赖GPU的情况下获得较好的性能&#…

阅读更多...

Nacos服务注册中心

Nacos服务注册中心

1.引入依赖 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId></dependency>2.application.properties中配置 # 应用名称 spring.application.namenacos-aserver…

阅读更多...

最新文章