「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集
,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与
来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示
。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目测试模型的哪方面能力测试结果
儿童书籍识别不同类型的词汇ACC从85.7提升至93.3
LAMBADA测试识别文本中长依赖的能力PPL99.8降低至8.63
Winograd Schema Challenge常识性推理63.7%提升至70.7%
阅读理解需要模型具有一定记忆能力4项测试3项刷新历史记录
摘要对新闻文章提取摘要的能力与历史成绩持平
翻译大模型自动学习的翻译能力英译法较差,法译英达到基准水平
问答模型对于似是而非问题回答正确的能力准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识
。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/867453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django开发实战(1)- 认识django

1.django 使用MTV模式,其实与MVC本质一样: model:业务对象和关系映射(ORM) template:客户端页面展示 view:业务逻辑,根据需求调用 2.开发相关 √ python √ html&…

简单的手动实现spring中的自动装配案例

简简单单的实现一个spring中的自动装配和容器管理的小骚操作。 1,创建AutoSetBean.java 使用injectBeans静态方法,可以扫描指定包下的所有带MyInject注解的字段,如果在beans的Map中存在这个字段的实例化类,则执行装配。 import…

无人机企业需要什么资质?

无人机企业所需的资质主要可以分为几大类,以确保其合法、安全、高效地进行相关业务活动。以下是对这些资质的详细解释和归纳: 1. 基础企业资质: - 工商营业执照:这是企业合法经营的基本证书,所有企业都需要取得。无人…

软连接迁移 Docker 的默认安装(存储)目录

前言 经常我们会拿到一些别人装好的服务器,需要在这些系统上启动我们的docker服务。 但是这些“专业人员”呢,有时候就会有非常不专业的操作,比如他把根目录/只划分50GB,/home却有51TB。这个时候就会导致我们的服务器还有很多空间…

9 redis,memcached,nginx网络组件

课程目标: 1.网络模块要处理哪些事情 2.reactor是怎么处理这些事情的 3.reactor怎么封装 4.网络模块与业务逻辑的关系 5.怎么优化reactor? io函数 函数调用 都有两个作用:io检测 是否就绪 io操作 1. int clientfd = accept(listenfd, &addr, &len); 检测 全连接队列…

基于工业互联网的智慧矿山解决方案PPT(38页)

文章摘要 工业互联网与智慧矿山 基于工业互联网的新一代智慧矿山解决方案,将互联网和新一代IT技术与工业系统深度融合,形成关键的产业和应用生态,推动工业智能化发展。该方案以“四级、三层、两网、一平台”为总体框架,强调应用目…

刷代码随想录有感(127):动态规划——判断是否为子序列

题干&#xff1a; 代码&#xff1a; class Solution { public:bool isSubsequence(string s, string t) {vector<vector<int>>dp(s.size() 1, vector<int>(t.size() 1, 0));for(int i 1; i < s.size(); i){for(int j 1; j < t.size(); j){if(s[i …

Perl 语言开发(六):深入探索 Perl 中的数组与列表操作

目录 1. 数组和列表的基本概念 1.1 数组的定义与特点 1.2 列表的定义与特点 2. 数组的基本操作 2.1 访问数组元素 2.2 数组的长度 2.3 添加和删除元素 2.4 切片操作 2.5 迭代数组 3. 列表的常见操作 3.1 创建和使用列表 3.2 列表的上下文 3.3 列表和数组的转换 3…

【人工智能】-- 智能机器人

个人主页&#xff1a;欢迎来到 Papicatch的博客 课设专栏 &#xff1a;学生成绩管理系统 专业知识专栏&#xff1a; 专业知识 文章目录 &#x1f349;引言 &#x1f349;机器人介绍 &#x1f348;机器人硬件 &#x1f34d;机械结构 &#x1f34d;传感器 &#x1f34d;控…

【MySQL】简单的CURD操作

【MySQL】简单的CURD操作 前言 ​ 今天我们要一起学习的是MySQL中简单的CURD操作&#xff0c;Create(创建), Retrieve(读取)&#xff0c;Update(更新)&#xff0c;Delete&#xff08;删除&#xff09;。 正文 Create创建 创建数据的基本方式insert语法&#xff1a; INSER…

Linux查看文件的行数,字数,字节数

介绍 在Linux系统中这统计非常方便&#xff0c;只需要简单的几个命令就可以搞定&#xff0c;这个命令就是 wc。 wc --help 用法&#xff1a;wc [选项]... [文件]...或&#xff1a;wc [选项]... --files0-fromF 输出每个指定文件的行数、单词计数和字节数&#xff0c;如果指定…

One day for Chinese families

周围生活中的普通家庭的一天流程&#xff1a; 【上班的一天】 【放假的一天】 有家庭的人&#xff0c;上班流程&#xff1a; 01&#xff09;准备早餐&#xff0c;牛奶&#xff0c;面包 02&#xff09;叫娃娃起床&#xff0c;一般要蛮久的&#xff1b;沟通交流 -- 哄娃娃 -- 生气…

【TB作品】基于ATmega48的开机登录程序设计

使用Proteus仿真软件设计一个开机登录程序,单片机选用ATmegga48. 基础要求: 1.程序启动后在LCD1602液晶屏上提示用户通过独立按键输入密码(6位)。 2.密码输入错误则在屏幕上提示密码错误,密码输入正确则在屏幕上提示密 码正确后等待约3秒后进入主界面,在屏幕中央显示HelloWorld…

windows下编译ffmpeg 最详细教程

1 Ffmpeg下载地址&#xff1a;FFmpeg 使用命令下载 git clone https://git.ffmpeg.org/ffmpeg.git ffmpeg 下载完成后会发现如下目录&#xff1a; 2 msys2下载地址&#xff1a;MSYS2 解压好后&#xff0c;选择一个非空路径安装&#xff0c;安装好后路径如下&#xff1a; 为…

自己动手实现语音识别

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。 通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。 语音mfc…

ROS——坐标系管理、监听与广播、常用可视化工具

坐标系管理 TF功能包 小海龟追踪实验 ros版本(20.04)的tf安装命令: sudo apt-get install ros-noetic-turtle-tf 解决因python版本出现的无法生成跟随海龟&#xff1a; sudo ln -s /usr/bin/python3 /usr/bin/python ( -s 软链接,符号链接) ln命令&#xff08;英文全拼&#…

ForkJoinPool 简介

引言 在现代并行编程中&#xff0c;处理大规模任务时将任务分割成更小的子任务并行执行是一种常见的策略。Java 提供了 Fork/Join 框架来支持这一模式&#xff0c;其中 ForkJoinPool 是其核心组件。本文将详细介绍 ForkJoinPool 的概念、使用方法和实际应用。 1. ForkJoinPoo…

grpc-go服务端接口添加

【1】新建一个目录whgserviceproto&#xff0c;目录下新建一个proto包&#xff1a;whgserviceproto.proto &#xff08;注意目录和包名称保持一致&#xff09; //协议为proto3 syntax "proto3"; // 指定生成的Go代码在你项目中的导入路径 option go_package"…

代理模式详解、RESTFul风格、Spring IOC

Day49 代理模式proxy 概念&#xff1a; 代理(Proxy)是一种设计模式&#xff0c;提供了对目标对象另外的访问方式&#xff0c;即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能. 代理模式分为静态代理和动态代理…

在Spring Boot项目中使用Leyden

Spring Boot 服务的 RAM 消耗减少多达 30% &#xff0c;为研究Spring Boot而量身定制的 Alpaquita 容器。Buidpacks也可用&#xff01; 重要提示&#xff1a;Project Leyden EA 版本基于实验代码&#xff0c;不适用于生产用途。此外&#xff0c;EA 版本中的某些功能可能会更改…