GPT系列 论文阅读笔记

文章目录

    • GPT-1
    • GPT-2
    • GPT-3

GPT-1

  • GPT-1的核心:基于Transformer的解码器构建一个模型,在大量无标号的文本数据上训练一个模型,然后再在下游的子任务上进行微调。
  • 当前面临的问题:在NLP领域,有各种各样的下游任务。目前,自然语言处理中有标号的数据是非常少的,大部分的数据都是无标注的数据。因此,这就使得基于有标号的数据训练一个非常强大的NLP模型是非常困难的。另外,由于一个句子蕴含的信息内容大致只有一张图片的十分之一,因此如果需要构造一个规模很大的带标号的NLP领域数据集,需要比图像数据集规模更大。目前,在词嵌入模型之后,并没有基于无标文本号数据进行训练的很优秀的自然语言处理模型。
  • 第一作者:Radford。其著名的工作还包括生成对抗网络领域的DCGAN以及强化学习领域的PPO算法。
  • 模型架构:12层的Transformer解码器块,隐藏层维度是768。
  • 预训练过程:基于语言模型目标函数,在大量没有标号的数据集上训练。
  • 微调过程:同时使用了两个目标函数。第一个目标函数是根据文本序列进行标号,第二个目标函数则是语言模型的目标函数。
  • GPT和BERT的效果比较:BERT模型在训练阶段的目标函数是完形填空,相较于语言模型目标函数来说更加简单,因此在数据量较小的情况下更容易取得好的效果;GPT模型所基于的语言模型目标函数更加困难,因此在较小规模数据训练的情况下效果不如BERT,但是其上限会比BERT更高。

GPT-2

  • GPT-2概述:创建了一个更大的数据集,并且将模型的参数量变为了15亿,从而提升了GPT-1的效果。该模型主打的是将GPT-2应用于下游任务中时可以做到Zero-shot。
  • 第一作者:仍然是Radford。
  • 数据集来源:通过reddit搜集数据集,搜集到了有史以来最大的数据集。

GPT-3

  • GPT-3概述:GPT-3是一个含有1750亿参数的模型。GPT-3不用也不能进行微调,因为这么大的模型即使是微调也是非常困难的。相反,它提出通过Few-shot的方法将GPT-3直接应用于下游的NLP任务中。
  • GPT-3的不同规模:GPT-3模型有多个不同大小的版本,最小的仅包含1亿多的参数,最大的模型有1750亿的参数。
  • 实验结果:在所有NLP任务上取得了很好的成绩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/760914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ 构造函数详细介绍

c对象的创建 c对象的创建一般分为以下三个阶段: 分配内存: ■ 在堆区、栈区或者全局数据区留出足够多的字节。这个时候的内存还比较“原始”,没有被“教化”,它所包含的数据一般是零值或者随机值,没有实际的意义&…

使用Java版工程行业管理系统源码,提升工程项目的综合管理能力

工程项目管理涉及众多环节和角色,如何实现高效协同和信息共享是关键。本文将介绍一个采用先进技术框架的Java版工程项目管理系统,该系统支持前后端分离,功能全面,可满足不同角色的需求。从项目进度图表到施工地图,再到…

Java------数据结构之栈与队列(简单讲解)

本篇碎碎念:时隔n个月,继续写博客,假期落下的进度,在开学后努力追赶,假期不努力,开学徒伤悲啊,此时此刻真想对自己说一句,活该啊~~~~ 欠下的链表练习题讲解会在下次更新~~~~ 今日份励…

Day53| 1143 最长公共子序列 1035 不相交的线 53 最大子序和 动态规划

目录 1143 最长公共子序列 1035 不相交的线 53 最大子序和 动态规划 1143 最长公共子序列 class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<int>(text2.si…

Ubuntu20.04 安装fcitx5输入法

序 ubuntu 20.04.3下fcitx5 需要从flatpak安装&#xff0c;&#xff08;由于qt版本&#xff0c;fcitx5-config只能安装在20.10上&#xff09;&#xff0c;中间出了各种问题&#xff0c;最后发现以下解决方案最好&#xff1a; 安装flatpak (建议使用官方ppa,版本较新) 1 2 3 …

应届生/实习生租房经验帖

前言 作者&#xff1a;晓宜 个人简介&#xff1a;互联网大厂Java准入职&#xff0c;阿里云专家博主&#xff0c;csdn后端优质创作者&#xff0c;算法爱好者 博主本人在杭州互联网小镇和北京中关村都实习过一段时间&#xff0c;分享下租房的经历&#xff0c;以及在这过程中踩的坑…

视频素材库网站下载的地方在哪里?

视频素材库网站下载的地方在哪里&#xff1f;这是很多短视频创作者都会遇到的问题。别着急&#xff0c;今天我就来给大家介绍几个视频素材库网站下载的好去处&#xff0c;让你的视频创作更加轻松有趣&#xff01; 蛙学网&#xff1a;视频素材库网站下载的一定要选择蛙学网啦&am…

C++利用开散列哈希表封装unordered_set,unordered_map

C利用开散列哈希表封装unordered_set,unordered_map 一.前言1.开散列的哈希表完整代码 二.模板参数1.HashNode的改造2.封装unordered_set和unordered_map的第一步1.unordered_set2.unordered_map 3.HashTable 三.string的哈希函数的模板特化四.迭代器类1.operator运算符重载1.动…

WPF —— DataGrid数据网格

1 &#xff1a;DataGrid简介 DataGrid 是数据网格 : 可以显示网格数据的控件&#xff0c;通过自定义列模版 来去实现各种网格效果 &#xff0c; 可以使用以下几中标签显示不同数据 2 &#xff1a;DataGrid常用的组件 显示文本: DataGridTextColumn 显示复选框: DataGridChec…

【计算机考研】杭电 vs 浙工大 怎么选?

想求稳上岸的话&#xff0c;其他几所学校也可以考虑&#xff0c;以留在本地工作的角度考虑&#xff0c;这几所学校都能满足你的需求。 如果之后想谋求一份好工作&#xff0c;肯定优先杭电是比较稳的&#xff0c;当然复习的时候也得加把劲。 这个也可以酌情考虑&#xff0c;报…

C# 设置AutoScroll为true没效果的原因分析和解决办法

C#中添加tabControl 分页&#xff0c;将autoscroll设置为true发现缩小窗口没有滚动条效果。该问题出现后&#xff0c;检索发现也有很多人询问了该问题&#xff0c;但是都没有给出解决方案。 原因是内部button的属性Anchor设置为top、left、right、bottom导致的缩小界面窗口也没…

【逆向】常用指令操作adb和logcat

快将尘埃掸落 别将你眼眸弄脏 或许吧 谈笑中你早已淡忘 而我在颠沛中 已饱经一脸沧桑 思念需要时间 慢慢调养 &#x1f3b5; 张小九《余香》 在安卓开发和调试过程中&#xff0c;adb&#xff08;Android Debug Bridge&#xff09;是一个无可替代的工具。它…

为什么Hashtable不允许插入nuIl键和null值?

1、典型回答 浅层次的来回答这个问题的答案是&#xff0c;JDK 源码不支持 Hashtable 插入 value 值为 null&#xff0c;如以下 JDK 源码所示&#xff1a; 也就是 JDK 源码规定了&#xff0c;如果你给 Hashtable 插入 value 值为 null 就会抛出空指针异常。 并且看上面的 JDK …

node.js常用的命令

node.js常用的命令包括&#xff1a; 安装包。使用npm install <包名>版本号安装指定版本的包&#xff0c;或者使用npm install <包名>安装包到当前目录。 卸载包。使用npm uninstall <包名>卸载包。 全局安装包。使用npm install <包名> -g全局安装包…

MySQL面试高频简答题及答案解析

1. 请解释什么是关系型数据库?并列举关系型数据库的主要特点。 关系型数据库是采用关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解。关系型数据库的主要特点包括易于编程、支持复杂查询以及支持事务处理等。 2. 简述MySQL的存储引擎及其作用。 MyS…

【Ubuntu】FTP站点搭建

配置顺序 前提条件&#xff1a;确保软件仓库可以正常使用&#xff0c;确保已正常配置IP地址 1.安装FTP服务 2.编辑FTP配置文件 3.设置开机自启 4.创建用户 5.配置用户限制名单 6.重启服务 7.查看运行状态 8.测试在同一局域网下的Windows查看文件 1.安装FTP服务 sudo apt insta…

网站建设中的HTTP 请求方法

快速入门 — Flask 0.10.1 文档 (jinkan.org) HTTP 请求方法 | 菜鸟教程 (runoob.com) HTTP &#xff08;与 Web 应用会话的协议&#xff09;有许多不同的访问 URL 方法。默认情况下&#xff0c;路由只回应 GET 请求&#xff0c;但是通过 route() 装饰器传递 methods 参数可以…

【STM32嵌入式系统设计与开发】——8usart(串口通讯实验)

这里写目录标题 一、任务描述二、任务实施1、ActiveBeep工程文件夹创建2、函数编辑&#xff08;1&#xff09;主函数编辑&#xff08;2&#xff09;USART1初始化函数(usart1_init())&#xff08;3&#xff09;USART数据发送函数&#xff08; USART1_Send_Data&#xff08;&…

Tempo Talents | 创新专业建设方案,赋能高校4+N大数据学科人才培养

数字经济成为国家战略&#xff0c;是新一轮的经济发展引擎&#xff0c;数字人才、复合型人才成为发展的关键和核心要素。各级政府、区域开始以区域产业为导向&#xff0c;培育、聚集产业所需的数智化人才。 高校作为人才培养的重要基地&#xff0c;也发挥着不可或缺的作用。他…

Linux系统之安装java开发环境

1 java简介 Java 是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 面向对象程序设计语言和 Java 平台的总称。由 James Gosling和同事们共同研发&#xff0c;并在 1995 年正式推出&#xff0c;后来 Sun 公司被 Oracle &#xff08;甲骨文&#xff09;公司收购&#xff…