GPT、GPT-2、GPT-3论文精读笔记

视频:GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文:把bert用回计算机视觉领域

CLIP论文:打通文本和图像

GPT

论文:Improving Language Understanding by Generative Pre-Training

半监督学习:使用没有标号的文本进行预训练一个语言模型,用有标号的数据训练一个微调模型

Bert是Transformer的encoder(既能用前面 也能用后面特征),GPT是Transformer的decoder部分(带掩码的注意力机制,因为任务是预测下一个词,只能用来自前面的特征)

Bert是带掩码的语言模型,完形填空(挖掉中间的词 用上下文来预测该词)

无标号数据上做预训练

目标函数1:

给定 k 个词 预测下一个词,如何预测:

和Bert的区别不只是编码器解码器,更主要的区别是目标函数的选取,GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2:

将语言模型作为微调的辅助,得到的目标函数:

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式,调整数据而不调整模型,预训练好Transformer模型后 在做下游任务时候不需要改变模型结构(GPT跟以往相比的特点)

实验部分

12层Transformer的decoder 每层维度768(跟bert-base一样)

在预训练语言模型时是在自然文本上训练,但在下游任务时对其输入进行了构造(开始 结束 分隔符)

GPT-2

论文:Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调(在每一个任务上还要提供部分样本用于训练)的缺点,好处是训练一个模型 在任何地方都能用

zero-shot

做到下游任务时,不需要任何标注信息,也不需要训练模型,使用 prompt

采样策略

预测出下一个词的概率,不一定选择概率最大的 可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1:不变,softmax 选出概率最大的数

Temperature越大,越多样

Top k:采样前k个词

Top p:累加概率 达到该概率就停止采样,一般95%

GPT-3

论文:Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式:

  • Zero-shot
  • One-shot:给出一个参考的问题和回答,要GPT根据给出的参考回答一个新问题
  • Few-shot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163020.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史诗级云故障敲响警钟,应用保障不能没有“连续键”!

近日,知名云服务商出现一次史诗级的云故障:全球所有区域/所有服务同时异常,故障持续长达3小时之多,云上众多应用受到极大影响。 如今,在一个充满不确定性和复杂性的数字化时代,哪怕是顶级云服务商亦不能避…

python-append与extend的区别

append 和 extend 是用于向列表(List)添加元素的两种不同的方法,它们在功能上有一些重要的区别。 append 方法: append 方法用于在列表的末尾添加单个元素。语法:list.append(element)示例:my_list [1, 2,…

并行与分布式计算 第9章 算法设计

文章目录 并行与分布式计算 第9章 算法设计9.1 设计过程9.1.1 PCAM设计过程9.1.2 划分9.1.3 通信9.1.4 组合9.1.5 映射 8.2 设计方法8.2.1 划分技术9.2.2 分治9.2.3 平衡树技术9.2.4倍增技术9.2.5 流水线技术9.2.6 破对称技术 并行与分布式计算 第9章 算法设计 9.1 设计过程 …

一张图,了解美格智能高算力AI模组

美格智能高算力A模组,澎湃算力让AI触手可及!

数字化背景下,集流体行业的智能制造方法论

行业背景 随着全球对清洁能源需求的不断增加,新能源领域正在迅速崛起,在新能源技术中,锂电池作为一种高效、轻便的能量储存解决方案,正成为主流。而锂电集流体作为锂电池的核心部件,承担着电池内部电流分布的关键角色…

掌握Java关键字与面试技巧的完美结合!

问题:请说明什么是策略模式,并使用Java代码举例说明其使用场景和实现方式。 答案: 策略模式是一种行为型设计模式,它允许在运行时根据不同的情况选择不同的算法或策略。它将每个可选的算法封装成一个独立的类,从而使得…

服务号可以迁移到订阅号吗

服务号和订阅号有什么区别?服务号转为订阅号有哪些作用?首先我们要看一下服务号和订阅号的主要区别。1、服务号推送的消息没有折叠,消息出现在聊天列表中,会像收到消息一样有提醒。而订阅号推送的消息是折叠的,“订阅号…

RHEL 8.6 Kubespray 1.23.1 install kubernetes v1.27.7

文章目录 1. 预备条件配置网卡download01 节点安装 nerdctl3. download01 节点 介质下载4. bastion01节点配置 yum 源5. bastion01 离线安装 nerdctl安装l insecure registry配置镜像入库执行 set-all.sh7. bastion01 配置互信8. 启动容器部署环境9. 部署前准备9.1 配置 extrac…

分布式篇---第二篇

系列文章目录 文章目录 系列文章目录前言一、你知道哪些分布式事务解决方案?二、什么是二阶段提交?三、什么是三阶段提交?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你…

基于Pytorch框架多人多摄像头摔倒跌倒坠落检测系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 深度学习在计算机视觉领域的应用已经取得了显著的进展,特别是在多人多摄像头场景下的摔倒跌倒检测。通过…

java异常 try/catch/throw/throws

try-catch一般用在最上层的程序里,可以配合throws和throw再将异常抛给用户,这种情况会使上层代码中断。也可以不选择抛出,这种上层代码会继续运行。 被调用的方法如果有异常的可能可以通过throws抛给上层处理,不加try catch的情况…

Vue环境的搭建

1.Vue开发的两种方式 (1)核心包传统开发模式 基于html/css/js文件,直接引入和辛堡,开发Vue。 (2)工程化开发模式: 主要是基于构建工具(例如,webpack)的环境中开发Vue…

【ARM 嵌入式 编译系列 2.2 -- 如何在Makefile 中添加编译时间 | 编译作者| 编译 git id】

请阅读【ARM GCC 编译专栏导读】 上篇文章:【ARM 嵌入式 编译系列 2.1 – GCC 编译参数学习】 下篇文章:【ARM 嵌入式 编译系列 2.3 – GCC 中指定 ARMv8-M 的 Thumb 指令集参数详细介绍】 文章目录 编译参数介绍 编译参数介绍 通常我们在 OS 启动的时…

福州大学《嵌入式系统综合设计》实验五:图像裁剪及尺寸变换

一、实验目的 在深度学习中,往往需要从一张大图中裁剪出一张张小图,以便适应网络输入图像的尺寸,这可以通过bmcv_image_crop函数实现。 实践中,经常需要对输入图像的尺寸进行调整,以适用于网络输入图片尺寸&#xff0…

查看sql语句执行计划并重建索引

晚上cpu报警显示当前cpu使用率达到90%以上,不到10%的空闲 先查询当前sql: #(ORACLE) SQL > set line 200 pages 1000 col event for a30 col program for a30 col username for a12 col sql_id for a15 col INST_ID for 9999 …

前端开发学习 (二) 事件修饰符、系统命令

其实,我们上一章的时候就已经说过了一些系统指令,这里详细介绍一下 一、v-on的事件修饰符 事件作用click点击时触发submit表单被提交时触发input输入框发生改变时触发keyup按键松开时触发keydown按键按下时触发mouseover鼠标悬停触发mouseout当鼠标移开…

安徽省广德市选择云轴科技ZStack Cloud云平台建设县级智慧城市

信创是数字中国建设的重要组成部分,也是数字经济发展的关键推动力量。作为云基础软件企业,云轴科技ZStack产品矩阵全面覆盖数据中心云基础设施,ZStack信创云首批通过可信云《一云多芯IaaS平台能力要求》先进级,是其中唯一兼容四种…

错误记录:AttributeError/TypeError

【pycharm】报错:AttributeError: partially initialized module ‘numpy’ has no attribute ‘array’ (most likely due to a circular import)的错误 文件名与调用包的名称一致引起歧义 解决办法:修改文件名重新run 【pycharm】报错:T…

【Web】NewStarCTF Week1 个人复现

目录 ①泄露的秘密 ②Begin of Upload ③Begin of HTTP ④ErrorFlask ⑤Begin of PHP ⑥R!C!E! ⑦EasyLogin ①泄露的秘密 盲猜/robots.txt,访问得到flag前半部分 第二个没试出来,老老实实拿dirsearch扫吧 访问/www.zip 下载附件,拿到第二部分…

SpringCloud原理-OpenFeign篇(一、Hello OpenFeign项目示例)

文章目录 前言正文一、项目结构二、服务调用链路说明三、Rpc调用链路说明四、项目代码4.1 client 模块中的feign接口4.2 client 中的rest接口4.3 client 中的启动类4.4 server中的rest接口4.5 server中的配置文件 五、调试 附录附1:本系列文章链接 前言 本篇是Spri…