GPT、GPT-2、GPT-3论文精读笔记

GPT、GPT-2、GPT-3论文精读笔记

news/2025/4/4 6:09:29/文章来源:https://blog.csdn.net/m0_54625820/article/details/134560977

视频：GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文：把bert用回计算机视觉领域

CLIP论文：打通文本和图像

GPT

论文：Improving Language Understanding by Generative Pre-Training

半监督学习：使用没有标号的文本进行预训练一个语言模型，用有标号的数据训练一个微调模型

Bert是Transformer的encoder（既能用前面也能用后面特征），GPT是Transformer的decoder部分（带掩码的注意力机制，因为任务是预测下一个词，只能用来自前面的特征）

Bert是带掩码的语言模型，完形填空（挖掉中间的词用上下文来预测该词）

无标号数据上做预训练

目标函数1：

给定 k 个词预测下一个词，如何预测：

和Bert的区别不只是编码器解码器，更主要的区别是目标函数的选取，GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2：

将语言模型作为微调的辅助，得到的目标函数：

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式，调整数据而不调整模型，预训练好Transformer模型后在做下游任务时候不需要改变模型结构（GPT跟以往相比的特点）

实验部分

12层Transformer的decoder 每层维度768（跟bert-base一样）

在预训练语言模型时是在自然文本上训练，但在下游任务时对其输入进行了构造（开始结束分隔符）

GPT-2

论文：Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调（在每一个任务上还要提供部分样本用于训练）的缺点，好处是训练一个模型在任何地方都能用

zero-shot

做到下游任务时，不需要任何标注信息，也不需要训练模型，使用 prompt

采样策略

预测出下一个词的概率，不一定选择概率最大的可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1：不变，softmax 选出概率最大的数

Temperature越大，越多样

Top k：采样前k个词

Top p：累加概率达到该概率就停止采样，一般95%

GPT-3

论文：Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式：

Zero-shot
One-shot：给出一个参考的问题和回答，要GPT根据给出的参考回答一个新问题
Few-shot

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/163020.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

史诗级云故障敲响警钟，应用保障不能没有“连续键”！

史诗级云故障敲响警钟，应用保障不能没有“连续键”！

近日，知名云服务商出现一次史诗级的云故障：全球所有区域/所有服务同时异常，故障持续长达3小时之多，云上众多应用受到极大影响。如今，在一个充满不确定性和复杂性的数字化时代，哪怕是顶级云服务商亦不能避…

阅读更多...

python-append与extend的区别

python-append与extend的区别

append 和 extend 是用于向列表（List）添加元素的两种不同的方法，它们在功能上有一些重要的区别。 append 方法： append 方法用于在列表的末尾添加单个元素。语法：list.append(element)示例：my_list [1, 2,…

阅读更多...

并行与分布式计算第9章算法设计

并行与分布式计算第9章算法设计

文章目录并行与分布式计算第9章算法设计9.1 设计过程9.1.1 PCAM设计过程9.1.2 划分9.1.3 通信9.1.4 组合9.1.5 映射 8.2 设计方法8.2.1 划分技术9.2.2 分治9.2.3 平衡树技术9.2.4倍增技术9.2.5 流水线技术9.2.6 破对称技术并行与分布式计算第9章算法设计 9.1 设计过程 …

阅读更多...

一张图，了解美格智能高算力AI模组

一张图，了解美格智能高算力AI模组

美格智能高算力A模组，澎湃算力让AI触手可及！

阅读更多...

数字化背景下，集流体行业的智能制造方法论

数字化背景下，集流体行业的智能制造方法论

行业背景随着全球对清洁能源需求的不断增加，新能源领域正在迅速崛起，在新能源技术中，锂电池作为一种高效、轻便的能量储存解决方案，正成为主流。而锂电集流体作为锂电池的核心部件，承担着电池内部电流分布的关键角色…

阅读更多...

掌握Java关键字与面试技巧的完美结合！

掌握Java关键字与面试技巧的完美结合！

问题：请说明什么是策略模式，并使用Java代码举例说明其使用场景和实现方式。答案： 策略模式是一种行为型设计模式，它允许在运行时根据不同的情况选择不同的算法或策略。它将每个可选的算法封装成一个独立的类，从而使得…

阅读更多...

服务号可以迁移到订阅号吗

服务号可以迁移到订阅号吗

服务号和订阅号有什么区别？服务号转为订阅号有哪些作用？首先我们要看一下服务号和订阅号的主要区别。1、服务号推送的消息没有折叠，消息出现在聊天列表中，会像收到消息一样有提醒。而订阅号推送的消息是折叠的，“订阅号…

阅读更多...

RHEL 8.6 Kubespray 1.23.1 install kubernetes v1.27.7

RHEL 8.6 Kubespray 1.23.1 install kubernetes v1.27.7

文章目录 1. 预备条件配置网卡download01 节点安装 nerdctl3. download01 节点介质下载4. bastion01节点配置 yum 源5. bastion01 离线安装 nerdctl安装l insecure registry配置镜像入库执行 set-all.sh7. bastion01 配置互信8. 启动容器部署环境9. 部署前准备9.1 配置 extrac…

阅读更多...

分布式篇---第二篇

分布式篇---第二篇

系列文章目录文章目录系列文章目录前言一、你知道哪些分布式事务解决方案？二、什么是二阶段提交？三、什么是三阶段提交？前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你…

阅读更多...

基于Pytorch框架多人多摄像头摔倒跌倒坠落检测系统

基于Pytorch框架多人多摄像头摔倒跌倒坠落检测系统

欢迎大家点赞、收藏、关注、评论啦 ，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四. 总结一项目简介深度学习在计算机视觉领域的应用已经取得了显著的进展，特别是在多人多摄像头场景下的摔倒跌倒检测。通过…

阅读更多...

java异常 try/catch/throw/throws

java异常 try/catch/throw/throws

try-catch一般用在最上层的程序里，可以配合throws和throw再将异常抛给用户，这种情况会使上层代码中断。也可以不选择抛出，这种上层代码会继续运行。被调用的方法如果有异常的可能可以通过throws抛给上层处理，不加try catch的情况…

阅读更多...

Vue环境的搭建

Vue环境的搭建

1.Vue开发的两种方式 （1）核心包传统开发模式基于html/css/js文件，直接引入和辛堡，开发Vue。 （2）工程化开发模式： 主要是基于构建工具（例如,webpack）的环境中开发Vue…

阅读更多...

【ARM 嵌入式编译系列 2.2 -- 如何在Makefile 中添加编译时间 | 编译作者| 编译 git id】

【ARM 嵌入式编译系列 2.2 -- 如何在Makefile 中添加编译时间 | 编译作者| 编译 git id】

请阅读【ARM GCC 编译专栏导读】上篇文章：【ARM 嵌入式编译系列 2.1 – GCC 编译参数学习】下篇文章：【ARM 嵌入式编译系列 2.3 – GCC 中指定 ARMv8-M 的 Thumb 指令集参数详细介绍】文章目录编译参数介绍编译参数介绍通常我们在 OS 启动的时…

阅读更多...

福州大学《嵌入式系统综合设计》实验五：图像裁剪及尺寸变换

福州大学《嵌入式系统综合设计》实验五：图像裁剪及尺寸变换

一、实验目的在深度学习中，往往需要从一张大图中裁剪出一张张小图，以便适应网络输入图像的尺寸，这可以通过bmcv_image_crop函数实现。实践中，经常需要对输入图像的尺寸进行调整，以适用于网络输入图片尺寸&#xff0…

阅读更多...

查看sql语句执行计划并重建索引

查看sql语句执行计划并重建索引

晚上cpu报警显示当前cpu使用率达到90%以上，不到10%的空闲先查询当前sql： #（ORACLE） SQL > set line 200 pages 1000 col event for a30 col program for a30 col username for a12 col sql_id for a15 col INST_ID for 9999 …

阅读更多...

前端开发学习 (二) 事件修饰符、系统命令

前端开发学习 (二) 事件修饰符、系统命令

其实，我们上一章的时候就已经说过了一些系统指令，这里详细介绍一下一、v-on的事件修饰符事件作用click点击时触发submit表单被提交时触发input输入框发生改变时触发keyup按键松开时触发keydown按键按下时触发mouseover鼠标悬停触发mouseout当鼠标移开…

阅读更多...

安徽省广德市选择云轴科技ZStack Cloud云平台建设县级智慧城市

安徽省广德市选择云轴科技ZStack Cloud云平台建设县级智慧城市

信创是数字中国建设的重要组成部分，也是数字经济发展的关键推动力量。作为云基础软件企业，云轴科技ZStack产品矩阵全面覆盖数据中心云基础设施，ZStack信创云首批通过可信云《一云多芯IaaS平台能力要求》先进级，是其中唯一兼容四种…

阅读更多...

错误记录：AttributeError/TypeError

错误记录：AttributeError/TypeError

【pycharm】报错：AttributeError: partially initialized module ‘numpy’ has no attribute ‘array’ (most likely due to a circular import)的错误文件名与调用包的名称一致引起歧义解决办法：修改文件名重新run 【pycharm】报错：T…

阅读更多...

【Web】NewStarCTF Week1 个人复现

【Web】NewStarCTF Week1 个人复现

目录 ①泄露的秘密 ②Begin of Upload ③Begin of HTTP ④ErrorFlask ⑤Begin of PHP ⑥R!C!E! ⑦EasyLogin ①泄露的秘密盲猜/robots.txt,访问得到flag前半部分第二个没试出来，老老实实拿dirsearch扫吧访问/www.zip 下载附件，拿到第二部分…

阅读更多...

SpringCloud原理-OpenFeign篇（一、Hello OpenFeign项目示例）

SpringCloud原理-OpenFeign篇（一、Hello OpenFeign项目示例）

文章目录前言正文一、项目结构二、服务调用链路说明三、Rpc调用链路说明四、项目代码4.1 client 模块中的feign接口4.2 client 中的rest接口4.3 client 中的启动类4.4 server中的rest接口4.5 server中的配置文件五、调试附录附1：本系列文章链接前言本篇是Spri…

阅读更多...

最新文章