【论文精读】GPT2

摘要

       在单一领域数据集上训练单一任务的模型是当前系统普遍缺乏泛化能力的主要原因,要想使用当前的架构构建出稳健的系统,可能需要多任务学习。但多任务需要多数据集,而继续扩大数据集和目标设计的规模是个难以处理的问题,所以只能采取多任务学习的其他框架。

       目前在语言任务上表现最佳的多任务学习系统,利用了预训练和监督微调的结合,通用的预训练系统可以在微调后在多个任务上表现良好,但微调仍需要监督数据。故本文做出证明:

  • 大型语言模型可以在zero-shot设置中执行下游任务,而不需要任何参数或架构修改的微调
    image

       上图为不同尺寸的预训练GPT2在zero-shot设置下执行阅读理解、机器翻译、摘要、问答任务上取得的性能。

框架

方法

       本文核心方法是语言建模。 语言建模通常为一组例子 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)的无监督分布估计,其中每个例子由可变长度的符号序列 ( s 1 , s 2 , . . . , s n ) (s_1,s_2,...,s_n) (s1,s2,...,sn)组成。 因为语言具有顺序性,因此通常将符号上的联合概率分解为条件概率的乘积:
p ( x ) = ∏ i = 1 n p ( s n ∣ s 1 , … , s n − 1 ) p(x)=\prod^n_{i=1}p(s_n|s_1,\dots,s_{n-1}) p(x)=i=1np(sns1,,sn1)

       这种方法允许对 p ( x ) p(x) p(x)以及形如 p ( s n − k , … , s n ∣ s 1 , … , s n − k − 1 ) p(s_{n−k}, …, s_n|s_1, …, s_{n−k−1}) p(snk,,sns1,,snk1)的条件分布进行可行的采样和估计。若目标为学习单一任务,可以用条件概率 p ( o u t p u t ∣ i n p u t ) p(output|input) p(outputinput)表示,但一个通用系统应该能够针对具体任务并根据输入来生成输出,即 p ( o u t p u t ∣ i n p u t , t a s k ) p(output|input, task) p(outputinput,task),故语言模型可以转换为用符号序列来指定任务,输入和输出表示。例如:

  • 翻译任务可以写成 (translate to French,English text,French text)
  • 阅读理解任务可以写成(answer the question,document,question,answer)

       MQAN(Memory-Question-Answer Network)能够根据这种格式的例子来推断和执行多种不同任务,语言建模也能在无监督的情况下采用MQAN的方式建模。

       因此问题变成了在上述配置下能否在实践中优化无监督目标直至收敛。本文实验通过分析语言模型在zero-shot设置下在各种任务上的性能证实,足够大的语言模型能够在这种配置中进行多任务学习,但学习速度比有监督的方法慢得多。

训练数据集

       本文没有采用传统的文本数据集,而是创建了一个强调文档质量的网络抓虫,但是人工筛选的数据质量更高但成本也高。所以爬虫抓取了Reddit(一个社交媒体平台)上大量的外部链接,因为Reddit上的外链通常是用户认为比较有趣、有价值的,类似于一种启发式指标,低成本的保证了数据的质量。

       基于此创建了数据集WebText,包含了4500万个链接的文本数据。为了从HTML响应中提取文本,使用了Dragnet和Newspaper的组合(本文中展示的所有结果使用的是初版WebText,它不包括2017年12月之后创建的链接),随后经过去重和数据清理后,获得了大约800万份文档,总计40GB的文本。

       WebText中删除了所有维基百科的文档,因为它是其他数据集的常见数据源,可能会由于训练数据与测试评估任务的重叠而使分析复杂化。
image
       上图为WebText训练集中发现的英语到法语和法语到英语翻译的例子。

输入表示

       通用的语言模型应该能够处理任何字符,但是现有的语言模型通过包含各种预处理操作:lower-casing、tokenization、预设词汇表等。这些操作都会限制语言模型能够处理的字符范围。

       综合考虑了OOV(out of vocabulary words)问题和基础词汇表过大(Unicode的全部符号)的问题后,使用经过调整的byte级的BPE算法。byte级的BPE算法有8位即256种不同字符组成的基础词汇表,为了避免诸如’dog’、‘dog?’、'dog!'这种一个词被构建出多个版本的情况,构建策略阻止了BPE除空格外跨字符类别进行任何字节序列的合并,提高了压缩效率。

       最终得到50257个词汇量的BPE,该方法可以表示任何Unicode字符组成的字符串,这使得可以在任何数据集上评估模型,无论预处理、标记化或词汇量的大小如何。

模型配置

       GPT2使用了Transformer架构,在GPT1模型的基础上做了一些小改动:

  • 调整Transformer的decoder,将Layer normalization移动到每个decoder子块的输入位置,并在最后一个decoder子块的自注意层后添加一个额外的Layer normalization
  • 初始化时残差层的权重乘以 1 / N 1/\sqrt N 1/N N N N是残差层的数量
  • BPE词汇量扩大到50257个,batch size大小设为512
    image
  • 如上图,本文采用12、24、36、48四种不同层数Transformer Decoder,对应tokens序列长度分别为768、1024、1280、1600,对应参数量为117M、345M、762M、1542M的模型测试。最小的模型等同于原始GPT,第二小的模型相当于BERT的最大模型,最大的模型称之为GPT2,比GPT的参数多一个数量级。

实验

Language Modeling

image
       上图为在WebText上预训练的不同尺寸GPT在zero-shot的设置下在其他数据集上的测试结果。观察到,GPT2在8个数据集中的7个实现了最佳水平。在小型数据集上也产生了很大的改进,例如Penn Treebank和WikiText-2。在LAMBADA和Children’s Book Test等长距离依赖性的数据集中,也有了很大的改进。但是在One Billion Word Benchmark上的结果较差,这可能是因为这个数据集较大且有最破坏性的预处理(1BW把句子随机打乱,去掉了所有长距离的结构)。

Children’s Book Test

image
       儿童图书测试(CBT)是用来检验语言模型在不同类别的词上的表现,比如命名实体、名词、动词和介词。评估指标是在完形填空测试中准确地预测被省略的词的可能选项中的正确答案。例:

  • 原始文本: I can swim, said Frog. I can swim as well as anything. So can I, said Toad. Don’t you want to race me across the river? Certainly not, said Frog. I don’t want to race you across the river. Suit yourself, said Toad. And he dived into the river and began to swim.
  • 完形填空测试: Frog said he could swim as well as __________. A. anything B. anyone C. Toad D. the river
  • 正确答案:C. Toad

       上图显示了随着模型大小增加,性能稳步提高,并且在这个测试上接近人类水平。GPT2在常见名词上达到了93.3%的新水平,在命名实体上达到了89.1%。

LAMBADA

       LAMBADA数据集测试系统对文本中长距离依赖关系的建模能力。任务是预测句子的最后一个单词,这需要至少50个上下文token才能成功预测。GPT-2将以往最优水平从99.8提高到了8.6的困惑度,并将预测准确性从19%提高到了52.66%。添加一个stop-word过滤器作为近似值,将准确性进一步提高到63.24%,使该任务总体上比最以往最优水平提高了4%。

Winograd Schema Challenge

image
       Winograd Schema挑战旨在通过测量系统解决文本中的歧义的能力来衡量其进行常识推理的能力。一个Winograd模式是一对只相差一两个单词且包含歧义的句子,这些歧义在两个句子中以不同方式处理,需要常识才能正确理解 。例:

  • 句子1:The trophy would not fit in the brown suitcase because it was too big.
  • 句子2:The trophy would not fit in the brown suitcase because it was too small.
  • 在这两个句子中,代词“it”指代的对象不同。在第一句中,“it”指的是奖杯,而在第二句中,“it”指的是手提箱。正确解决这种歧义需要使用常识知识。

       如上图,GPT2将最先进的系统(SOTA)的准确率提高到70.70%。

Reading Comprehension

       CoQA数据集由7个不同领域的文档和关于文档的自然语言对话组成,测试阅读理解能力和模型回答依赖于模型理解对话问题的能力。CoQA数据集包含来自8000个对话的127000对问题和答案,这些对话涉及7个不同领域,每组对话的平均长度为15轮,每一轮对话都由问题和回答组成。 例,针对《哈利·波特》的对话:

  • Q:书中第一句是什么? A:Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much.
  • Q:他们有孩子吗? A:They had a son called Dudley.
  • Q:Dudley有多大? A:He was about to turn eleven years old.

       当以文档、相关对话的历史和最终token A为条件时,GPT2使用贪婪解码生成的序列在开发集上达到了55 F1,这个结果近似或超过4个baseline系统中的3个,而且GPT2没有使用其余baseline系统训练中使用的127000多个手工收集的问题答案对。

Summarization

image
       本实验测试GPT2在CNN和每日邮报数据集上提取摘要的能力。为了诱导摘要行为,文章最后面添加TL;DR:文本,并使用k = 2的Top-k随机采样生成100个token,这鼓励了比贪婪解码更抽象的摘要,并使用生成的100个token中前3个句子作为摘要。

       如上图,在常用的ROUGE1、2、L指标上,生成的摘要只接近经典神经网络baseline的性能,并且仅略微优于随机从文章中选择3个句子做摘要。当删除任务提示TL;DR:时,GPT2的性能下降了6.4分,这证明了可以用自然语言在语言模型中调用特定任务行为。

Translation

       本实验测试GPT2翻译能力。输入设置为示例对的上下文,格式为english sentence = french sentence,然后在最后一个提示english sentence =之后,使用贪心解码从模型中采样,并使用第一个生成的句子作为翻译。

       在 WMT-14英-法测试集上,GPT2得到了5BLEU,这比之前在无监督词汇的研究中推断出的双语词汇逐字替换还要差一些。

       在 WMT-14法-英测试集上,GPT2获得了11.5BLEU。这超过了一些无监督机器翻译baseline,但仍然远远不及当前最佳无监督机器翻译方法的33.5BLEU。这项任务的表现令人感到惊讶,因为作者故意从WebText中删除了大量的非英语网页,只使用了10MB的法语数据,比先前无监督机器翻译研究使用的法语语料库小500倍。

Question Answering

image
       本实验验证使用语言模型来回答事实性问题的能力。使用自然问题数据集(Natural Questions dataset)作为测试数据集,输入类似于翻译实验。

       GPT2对所有问题的回答准确率为4.1%,而最小模型的准确率小于1.0%。这表明模型容量对这类任务的性能影响较大。GPT2对其生成答案的概率校准良好,在其最有信心的1%的问题中,准确率为63.1%。但GPT2的性能仍然远远低于30%至50%一些开放域问答系统。

       上图为GPT2对开发集问题产生的30个最自信的答案。

Samples

       下列图为GPT2在WebText的测试案例。

Text generation

image
image
image
image
image
image
image

Summarization

image

Translation

image

Question Answering

image
image

reference

Alec, R. , Jeffrey, W. , Rewon, C. , David, L. , Dario, A. , & Ilya, S. . (2019). Language Models are Unsupervised Multitask Learners.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/684610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PR:视频编辑播放速度技巧

想要视频片段加速或者减速,可以在片段上右击,选择“速度/持续时间...” 速度:可以更改百分比,如改成200%就是加速一倍,改成50%就是减速一倍。 注:如果源视频是正常速度录制的,比如每秒25帧&…

CSS弹性布局

CSS弹性布局 一、概念 ​ 弹性盒子是 CSS3 的一种新的布局模式。 ​ CSS3 弹性盒( Flexible Box 或 flexbox),是一种当页面需要适应不同的屏幕大小以及设备类型时确保元素拥有恰当的行为的布局方式。 ​ 引入弹性盒布局模型的目的是提供一…

【制作100个unity游戏之23】实现类似七日杀、森林一样的生存游戏17(附项目源码)

本节最终效果演示 文章目录 本节最终效果演示系列目录前言制作木板UI直接复制和工具一样的即可检查背包是否有指定数量的空插槽 源码完结 系列目录 前言 欢迎来到【制作100个Unity游戏】系列!本系列将引导您一步步学习如何使用Unity开发各种类型的游戏。在这第23篇…

实战过程记录:濒临宕机的业务系统仅优化1个SQL即恢复!!

记录一次真实Oracle系统SQL问题的案例 问题现像: 某客户业务的应用人员找到我,说是重要的业务系统出问题了,今天早上开始就很卡,现在卡到几乎无法工作。 问题的现象如下: 前台窗口查询啥都半天没有返回结果&#xff…

极致日志记录:Pino 为你带来的性能与便利性

微信搜索“好朋友乐平”关注公众号。 1. Pino Pino 是一个非常快速且简洁的 Node.js 日志库,其设计宗旨在于提供最小的开销以及高性能的日志记录功能。Pino 项目受到 Bunyan 日志库的启发,但其在性能上做了大量优化,因此在处理大量日志时&am…

【Linux】调试工具gdb:初识

前言 今天来记录并学习一下gdb的使用 背景 程序的发布方式有两种,debug模式和release模式Linux gcc/g出来的二进制程序,默认是release模式要使用gdb调试,必须在源代码生成二进制程序的时候, 加上 -g 选项 使用 gdb FileName 退出&#x…

效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP

刚刚,奥特曼发布OpenAI首个视频生成模型Sora。 完美继承DALLE 3的画质和遵循指令能力,能生成长达1分钟的高清视频。 AI想象中的龙年春节,红旗招展人山人海。 有紧跟舞龙队伍抬头好奇官网的儿童,还有不少人掏出手机边跟边拍&…

java 调用智谱ai 大模型的完整步骤(国内的 AI 大模型 对话)

要使用java 调用智谱AI的API进行异步调用,您需要遵循以下步骤: 1. **获取API密钥**: - 您需要从智谱AI平台获取一个API密钥(API Key),这个密钥将用于所有API请求的身份验证。 2. **SDK源…

【MySQL/Redis】如何实现缓存一致

目录 不实用的方案 1. 先写 MySQL , 再写 Redis 2. 先写 Redis , 再写MySQL 3. 先删 Redis,再写 MySQL 实用的方案 1. 先删 Redis,再写 MySQL, 再删 Redis 2. 先写 MySQL , 再删 Redis 3. 先写MySQL,通过BinLog&#xff0…

ClickHouse--10--临时表、视图、向表中导入导出数据

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.临时表1.1 特征1.2 创建一个临时表 2.视图2.1 普通视图2.2 物化视图 3.向表中导入导出数据3.1 案例 1.临时表 1.1 特征 ClickHouse 支持临时表,临时表…

智能汽车行业产业研究报告:毫米波雷达优势明显,核心壁垒是芯片、天线阵列、波形设计

今天分享的是智能汽车系列深度研究报告:《智能汽车行业产业研究报告:毫米波雷达优势明显,核心壁垒是芯片、天线阵列、波形设计》。 (报告出品方:国泰君安证券) 报告共计:67页 毫米波雷达被广泛…

Flume(二)【Flume 进阶使用】

前言 学数仓的时候发现 flume 落了一点,赶紧补齐。 1、Flume 事务 Source 在往 Channel 发送数据之前会开启一个 Put 事务: doPut:将批量数据写入临时缓冲区 putList(当 source 中的数据达到 batchsize 或者 超过特定的时间就会…

【前端web入门第六天】01 CSS浮动

⭐️第六天目标 解决布局问题如多个div标签在同一行的问题 简单来说,就是可以两个标签,一个在左边,另一个在右边. 👉相关知识 标准流浮动flex布局❗️ ❗️ ❗️ 标准流是先导,浮动和flex布局都可以解决问题,但是浮动在目标开发领域较为落后,主流的解决办法是flex…

OpenCV Mat实例详解 一

OpenCV中的Mat是一个类,它用存储图像信息。由两部分数据组成:矩阵头和像素值矩阵。矩阵头包含矩阵尺寸、存储方法、存储地址等信息,而像素值矩阵则存储实际的像素值数据。 Mat类在OpenCV中有十分重要的作用,图像信息的载入、保存、…

UI设计常见风格(1):一文读懂九个,教你如何辨识。

Hello,我是大千UI工场,设计风格是我们新开辟的栏目,上次讲了毛玻璃风格、辨识方法、应用场景、运用方法等,很受大家欢迎,本次带来常见的风格及辨识,让大家有个总览,以后会逐个讲解的&#xff0c…

【Java】零基础蓝桥杯算法学习——动态规划例题

例题:2023年第十四届蓝桥杯Java软件开发B组E题 蜗牛 参考解答: 参考代码示例: import java.util.Scanner; public class Main {static int N 100010;static int[] arr new int[N];static int[] a new int[N]; //传送带的起始坐标static …

【实战】一、Jest 前端自动化测试框架基础入门(一) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(一)

文章目录 一、前端要学的测试课1.前端要学的测试2.前端工程化的一部分3.前端自动化测试的例子4.前端为什么需要自动化测试?5.课程涵盖内容6.前置技能7.学习收获 二、Jest 前端自动化测试框架基础入门1. 自动化测试背景及原理前端自动化测试产生的背景及原理 2.前端自…

开什么店最稳定轻松?适合一个人开的实体店推荐

在创业的道路上,很多人都希望找到一种稳定轻松的开店方式。 作为一名资深的鲜奶吧创业者,我将分享我的经验和见解,希望能给那些想开实体店的朋友们一些启示!! 我开鲜奶吧已经有 5 年时间了,目前经营的是鲜…

MIT-BEVFusion系列八--onnx导出1 综述及相机网络导出

目录 综述export-camera.py加载模型加载数据生成需要导出成 onnx 的模块Backbone 模块VTransform 模块 生成 onnx使用 pytorch 原生的伪量化计算方法导出 camera.backbone.onnx导出 camera.vtransform.onnx 综述 bevfusion的各个部分的实现有着鲜明的特点,并且相互…

Harris关键点检测以及SAC-IA粗配准

一、Harris关键点检测 C #include <iostream> #include <pcl/io/pcd_io.h> #include <pcl/point_types.h> #include <pcl/common/io.h> #include <pcl/keypoints/harris_3d.h> #include <pcl/visualization/pcl_visualizer.h> #include …