GPT-2大战GPT-3:OpenAI内部的一场终极对决

作者:Kevin Vu

译者:Sambodhi

策划:刘燕

由于在训练过程中使用的数据集的多样性,我们可以为来自不同领域的文本获得足够的文本生成。GPT-2 的参数和数据是其前代 GPT 的 10 倍。而 GPT-3 又是 GPT-2 的 10 倍。那么问题来了,应该选择那个 Transformer 呢?

我应该选哪个 Transformer:GPT-2 还是 GPT-3

生成式预训练 Transformer(GPT)是 OpenAI 开发在自然语言处理(NLP)领域的创新之举。这些模型被认为是同类模型中最先进的,甚至在坏人手中也可能是很危险的。它是一种无监督的生成模型,也就是说,它接收句子等输入信息,并尝试生成一个适当的响应,而用于其训练的数据是不带标签的。

GPT-2 是什么?

GPT-2 是 OpenAI 在 2019 年 2 月创建的一种基于 Transformer 的无监督深度学习语言模型,其目的只有一个,就是预测句子中的下一个单词。GPT-2 是“Generative Pretrained Transformer 2”的缩写。该模型是开源的,在超过 15 亿个参数上进行训练,以便为给定句子生成下一个文本序列。

由于在训练过程中所用数据集的多样性,我们能够获取足够的来自不同领域的文本生成。而 GPT-2 的参数和数据是其前代 GPT 的 10 倍。

语言任务,如阅读、摘要和翻译,可以通过 GPT-2 学习原始文本,而不需要使用特定领域的训练数据。

自然语言处理的一些局限性

当处理自然语言生成时,必须考虑到某些局限性。它是一个非常活跃的研究领域,但它还处于起步阶段,还不能克服它的局限性。限制条件包括重复的文本,对技术性和专业性很强的主题的误解,以及对上下文短语的误解。

语言和语言学是一个复杂而庞大的领域,通常需要人们经过多年的训练和接触,不仅包括理解词语的含义,而且还包括上下文如何构成句子、如何给出答案以及使用恰当的俚语。它还可以为不同的领域创建自定义和可扩展的模型。OpenAI 提供的一个例子就是使用 Amazon Reviews 数据集来训练 GPT-2,并教授模型如何根据星级和类别等为条件编写评论。

GPT-3 是什么?

简而言之,GPT-3 就是“生成式预训练 Transformer”,它是 GPT-2 的第 3 个发行版,也是一个升级版。第 3 版将 GPT 模型提升到了一个全新的高度,因为它的训练参数达到了 1750 亿个(这是前代 GPT-2 的 10 倍以上)。

GPT-3 是在一个名为“Common Crawl”的开源数据集上进行训练的,还有来自 OpenAI 的其他文本,如维基百科(Wikipedia)条目。

GPT-3 的创建是为了比 GPT-2 更强大,因为它能够处理更多的特定主题。GPT-2 在接受音乐和讲故事等专业领域的任务时表现不佳,这是众所周知的。现在,GPT-3 可以更进一步地完成诸如答题、写论文、文本摘要、语言翻译和生成计算机代码等任务。它能够生成计算机代码,本身就已经是一个重大的壮举了。你可以 在这里查看一些 GPT-3 的例子。

长期以来,很多程序员都在担心被人工智能所取代,而现在看来,这一担心正在成为现实。随着 Deepfake 视频的普及,由人工智能驱动的语音和文字也开始模仿人类。不久,当你打电话或在网上交流时(例如聊天应用),可能很难判断你是在和真人交谈还是与人工智能交谈。

GPT-3 可称为序列文本预测模型

虽然它仍然是一种语言预测模型,但更精确的描述可能是一种序列文本预测模型。GPT-3 的算法结构已被认为是同类模型中最先进的,因为它使用了大量的预训练数据。

GPT-3 通过语义学的方法理解语言的含义,并尝试输出一个有意义的句子给用户,从而在接受输入后生成句子。因为不使用标签化的数据,模型就不会知道什么是对的,什么是错的,这是一种无监督学习。

因为这些模型可以自动完成许多基于语言的任务,所以当用户使用聊天机器人与公司进行通信时,它们就变得越来越知名和流行。GPT-3 目前处于私有 beta 测试阶段,这意味着如果用户想要使用这个模型,他们必须登录到等待列表中。它作为通过云访问的 API 提供。现在看来,这些模型只适用于那些拥有 GPT 模型资源的个人 / 企业。

当我们给出 “I want to go output to play so I went to the____”的句子时,可以看到这种模式在发挥作用的一个例子。在这个例子中,一个好的响应可以是诸如 park 或 playground 之类的,而不是诸如 car wash 之类的。

因此,在提示文本的条件下,park 或 playground 的概率高于 car wash 的概率。当模型被训练时,它被输入数百万个样本文本选项,并将其转换为数字向量表示。这是一种数据压缩的形式,模型用它把文本转换成有效的句子。压缩和解压的过程可以提高模型计算词的条件概率的准确性。它开启了一个充满可能性的全新世界,但也有其局限性。

GPT-2 和 GPT-3 的一些局限性

尽管生成式预训练 Transformer 在人工智能竞赛中是一个伟大的里程碑,但是它没有能力处理复杂和冗长的语言形式。举例来说,如果你想像一个句子或一段包含文学、金融或医学等专业领域的词汇,如果事先没有进行足够的训练,模型就不能做出恰当的反应。

鉴于计算资源和功耗的巨大需求,在当前情况下,这并非一种可行的大众解决方案。数十亿的参数需要大量计算资源才能运行和训练。

那又是一个黑盒模式。在一个业务环境中,用户最需要的是理解下面的过程。目前 GPT-3 仍不能向公众开放,因为只有少数人可以独占。潜在的使用者必须登记他们的兴趣,并等待邀请,这样才能亲自测试模型。这么做是为了防止滥用如此强大的模型。一种可以复制人类语言模式的算法,对于整个社会来说有很多道德意义。

GPT-3 优于 GPT-2

由于 GPT-3 更强的性能和明显更多的参数,它包含了更多的主题文本,显然比它的前代要好。这一模型非常先进,即便存在局限性, OpenAI 仍然决定保持其安全性,并仅发布给提交推理使用这一模式的选定个人。最后,他们可能会考虑将其作为 API 发布,这样就可以控制请求,并最小化对模型的滥用。

另外需要注意的是:微软在 2020 年 9 月宣布了 GPT-3 的“独家”使用许可;其他人仍然可以使用公共 API 来接收输出,但只有微软自己拥有源代码的控制权。由于这个原因,EleutherAI 一直在研究它自己的基于 Transformer 的语言模型,这种模型是根据 GPT 架构松散地设计的。他们的目标之一是使用自己的 GPT-Neo 来复制一个 GPT-3 规模的模型,并将其免费开源给公众。你可以 在这里查看 GitHub repo 上的 GPT-Neo 进展。

人工智能在对语言生成领域造成致命一击之前,还有很长的路要走,因为这些模型还不能完善人类语言的细微差别。需要学习处理的任务的精确度和类型仍比当前的能力要高。但是,新的 GPT 模型的快速发展,使得下一个重大突破可能就在眼前。

 作者介绍:

Kevin Vu,管理 Exxact Corp 博客,并与许多有才华的写手合作,他们都撰写深度学习的不同方面。

原文链接:

https://www.exxactcorp.com/blog/Deep-Learning/gpt2-vs-gpt3-the-openai-showdown

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【剑指offer】面试题34:二叉树中和为某一值的路径(Java)

输入一棵二叉树和一个整数,打印出二叉树中节点值的和为输入整数的所有路径。从树的根节点开始往下一直到叶节点所经过的节点形成一条路径。 示例: 给定如下二叉树,以及目标和 sum 22, 5 / \ 4 8 / …

AI解梦成为现实,贝尔实验室新算法尝试找到梦境的隐藏含义

文章来源: 学术头条古代巴比伦人认为梦境包含了预言,而古埃及人则将梦境视为神灵给予的信息来崇拜。在 19 世纪 90 年代,西格蒙德弗洛伊德(Sigmund Freud)为梦境里面的人物、物体和场景分配了象征意义,并着…

个人项目:wc程序(java)

Github项目地址:https://github.com/jat0824/wc.git 项目相关要求 wc.exe 是一个常见的工具,它能统计文本文件的字符数、单词数和行数。这个项目要求写一个命令行程序,模仿已有wc.exe 的功能,并加以扩充,给出某程序设计…

【剑指offer】面试题35:复杂链表的复制(Java)

请实现 copyRandomList 函数,复制一个复杂链表。在复杂链表中,每个节点除了有一个 next 指针指向下一个节点,还有一个 random 指针指向链表中的任意节点或者 null。 示例 1: 输入:head [[7,null],[13,0],[11,4],[10,2…

【综述专栏】图神经网络综述

来源:图灵人工智能作者:王健宗等https://wwwihcm/people/euu-lin-jun-7原文链接:https://kns.cnki.net/kcms/detail/31.1289.tp.20201123.1641.002.html摘要:随着计算机行业和互联网时代的不断发展与进步,图神经网络已…

HDFS设计思想

HDFS设计思想 DataNode:用来在磁盘上存储数据 HDFS 数据存储单元( block ) 1 文件被切分成固定大小的数据block块 •默认数据块大小为 64MB(hadoop1.x版本64M,2.x为128M) ,可配置 •若文件大小不到 64MB &#xff…

【剑指offer】面试题25:合并两个排序的链表(Java)

输入两个递增排序的链表&#xff0c;合并这两个链表并使新链表中的节点仍然是递增排序的。 示例1&#xff1a; 输入&#xff1a;1->2->4, 1->3->4 输出&#xff1a;1->1->2->3->4->4 限制&#xff1a; 0 < 链表长度 < 1000 代码&#xff…

被认为是世界史上50个最伟大的发明有哪些?

来源&#xff1a;数学中国根据美国《大西洋月刊》杂志邀请了世界上12位科学家、技术史专家、工程师、企业高管组成的专家团为世界遴选自车轮&#xff08;车轮的广泛使用一般被认为始于6000年前&#xff09;问世后的50个最伟大的发明。其中&#xff0c;中国的四大发明均在其中。…

numpy中的tile函数

在阅读《机器学习实战》一书中&#xff0c;第一次碰见tile函数一脸懵逼&#xff0c;试验了几次之后&#xff0c;明白了怎么回事&#xff0c;记录如下&#xff1a; >>> import numpy >>> numpy.tile([0,0],5)#在列方向上重复[0,0]5次&#xff0c;默认行1次 ar…

js几种常见排序的实现

1. 冒泡排序 定义&#xff1a; 比较相邻的前后二个数据&#xff0c;如果前面数据大于后面的数据&#xff0c;就将二个 数据交换。 这样对数组的第0个数据到N-1个数据进行一次遍历后&#xff0c;最大的一个数据就“沉”到数组第N-1个位置。 NN-1&#xff0c;如果N不为0就重复前…

Leetcode--695. 岛屿的最大面积

给定一个包含了一些 0 和 1的非空二维数组 grid , 一个 岛屿 是由四个方向 (水平或垂直) 的 1 (代表土地) 构成的组合。你可以假设二维矩阵的四个边缘都被水包围着。 找到给定的二维数组中最大的岛屿面积。(如果没有岛屿&#xff0c;则返回面积为0。) 示例 1: [[0,0,1,0,0,0…

“NP问题是可计算的吗?” - 从“可计算性”的角度审视NP

来源&#xff1a;图灵人工智能转自 http://blog.sciencenet.cn/u/liuyu2205P vs NP世纪难题显示出在现有的计算机理论中存在着令人不安的困惑&#xff1a;一方面&#xff0c;书本中的NP问题理论部份无论是学习或教学都感到困难&#xff0c;以至于人们不得不一次又一次回头去重新…

日志模块-logging模块

日志模块 -logging(非常重要) 记录用户行为程序运行过程程序错误记录logging.debug()通常调试时用到的日志信息logging.info() #证明事情按照预期的那样工作longging.warning() #表明发生了意外&#xff0c;或者不就得将来发生的问题&#xff08;如&#xff1a;磁盘满了&#x…

Leetcode--字符串压缩

字符串压缩。利用字符重复出现的次数&#xff0c;编写一种方法&#xff0c;实现基本的字符串压缩功能。比如&#xff0c;字符串aabcccccaaa会变为a2b1c5a3。若“压缩”后的字符串没有变短&#xff0c;则返回原先的字符串。你可以假设字符串中只包含大小写英文字母&#xff08;a…

GPT-3和AlphaFold 2震撼2020,2021年AI最大看点在哪儿?

来源&#xff1a;机器学习研究组订阅2020年并不缺重磅新闻&#xff0c;但人工智能依然够杀出重围&#xff0c;走进主流视野。尤其是GPT-3&#xff0c;它展示了人工智能即将以全新的方式深入我们的日常生活。这些进步赋予了未来很多可能&#xff0c;预测未来变得并不容易&#x…

SpringBoot RequestBody ajax提交对象

前端实现&#xff1a; var student {"name":1,"age":2,"score":3 }; $.ajax({ url:"student/test/delStudentByPrimaryKey.action",contentType:"application/json;charsetUTF-8",type:POS…

Leetcode--1160.拼写单词(Java)

给你一份『词汇表』&#xff08;字符串数组&#xff09; words 和一张『字母表』&#xff08;字符串&#xff09; chars。 假如你可以用 chars 中的『字母』&#xff08;字符&#xff09;拼写出 words 中的某个『单词』&#xff08;字符串&#xff09;&#xff0c;那么我们就认…

宇宙与无限之谜

文&#xff1a;Alan Lightman译&#xff1a;Sue校对&#xff1a;Rachel在博尔赫斯&#xff08;Jorge Luis Borges&#xff09;的《沙之书》&#xff08;The Book of Sand&#xff09;中&#xff0c;一个神秘的传教者敲开了故事主人公的门&#xff0c;想要卖给他一本圣书。这本书…

BZOJ 2124 等差子序列 线段树维护哈希

$ \Rightarrow $ 戳我进BZOJ原题 等差子序列Time Limit: 3 Sec $ \quad $ Memory Limit: 259 MBDescription 给一个 $ 1 $ 到 $ N $ 的排列 $ (A_i) $ &#xff0c;询问是否存在 $ 1 \le p_1<p_2<p_3<p_4<p_5<…<p_ \le N (Len \ge 3) $ &#xff0c; 使得 $…

Leetcode:892. 三维形体的表面积(Java)

在 N * N 的网格上&#xff0c;我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1&#xff1a; 输入&#xff1a;[[2]] 输出&#xff1a;10 示例 2&#xff1a; 输入&#xff1a;[…