gpt系列概述——从gpt1到chatgpt

 GPT建模实战:GPT建模与预测实战-CSDN博客      

         OpenAI的GPT(Generative Pre-trained Transformer)系列模型是自然语言处理领域的重要里程碑。从2018年至2020年,该公司相继推出了GPT-1、GPT-2和GPT-3,这些模型在文本生成和理解方面表现出了强大的能力。

        GPT-1发布于2018年6月,它是基于约5GB的文本数据进行训练的,模型参数量为1.17亿。尽管参数量相对较少,但GPT-1已经展示出了强大的自然语言生成和理解能力。

        仅仅几个月后,OpenAI在2019年2月推出了GPT-2。与GPT-1相比,GPT-2的训练数据量大幅增加,达到了约40GB,并且模型参数量也增加到了15亿。这使得GPT-2在自然语言处理任务中的性能得到了显著提升。

        到了2020年5月,OpenAI进一步推出了GPT-3,这是一个划时代的模型。GPT-3的训练数据量达到了惊人的45TB,并且模型参数量也激增到了1750亿。这使得GPT-3在文本生成、语言理解、对话系统等多个方面都取得了前所未有的突破。

1.GPT-1

        GPT,全称为“Generative Pre-Training”,代表生成式的预训练模型,是自然语言处理领域的重要技术之一。2018年,NLP领域竞争激烈,BERT和GPT是其中的佼佼者。尽管两者都很强大,但GPT因其需要预测未来的词,训练难度相对更大。BERT擅长通过完型填空理解上下文,适合文本分类和实体识别;值得一提的是,GPT作为自回归模型,专注于通过预测未来的词来生成文本,适合文本生成等任务。

        那么什么叫做自回归模型呢?        

例子

英文原句:The weather is beautiful today.

当我们把这句英文输入到自回归的翻译模型中时,模型会按照以下步骤进行翻译:

  1. 开始符号:模型首先处理一个特殊的开始符号(比如<BOS>,表示Beginning Of Sentence),这告诉模型它要开始生成一个句子了。

  2. 逐个词生成:模型首先会预测第一个词。根据英文原句和模型之前学习到的语言模式,它可能会预测出“今天”作为中文翻译的第一个词。

  3. 迭代预测:接下来,模型会将“今天”作为上下文,并预测下一个词。继续这个过程,模型可能会预测出“天气”作为第二个词。

  4. 继续生成:模型继续以之前生成的词为上下文,预测下一个词,直到生成完整的中文句子。在这个例子中,完整的翻译可能是“今天天气很好”。

  5. 结束符号:模型在生成完整个句子后,会预测一个特殊的结束符号(比如<EOS>,表示End Of Sentence),标志着翻译的完成。

        在这个过程中,自回归模型利用了之前生成的词作为上下文来预测下一个词,逐步构建出完整的翻译结果。这种逐个词生成的方式是自回归模型的核心特点,使得模型能够处理变长的文本序列,并生成自然流畅的翻译。

(1)网络结构

        Bert与GPT整体的网络结构都是采用Transformer,但是由于Bert有上下文,其网络结构类似于Transformer的编码器,而GPT需要根据前文进行预测,其网络结构相当于Transformer的解码器。其损失函数就是预测下一个词的损失。

(2)GPT-1的缺陷

        GPT-1的缺陷在于,所有下游任务都需要微调,这会带来巨大的成本,且模型的应用场景也有限。

2.GPT-2

        GPT-2 是一个强大的生成式预训练模型,而 “zero-shot” 指的是模型在没有针对特定任务进行训练或微调的情况下,仅通过给定的提示或上下文来执行任务的能力。这种方法利用了模型在预训练阶段学习到的广泛知识和推理能力

        在传统的机器学习方法中,通常需要为每个下游任务收集标注数据并进行训练或微调。然而,GPT-2 等大型预训练模型的出现改变了这一范式。这些模型在海量无标注数据上进行预训练,学习到了丰富的语言知识和推理能力,使得它们能够在不经过额外训练的情况下处理多种下游任务。

        当面对一个新的下游任务时,我们可以通过为模型提供适当的提示或上下文来“暗示”它需要完成的任务。例如,如果我们想让 GPT-2 完成一个文本分类任务,我们可以在输入文本后添加一个描述分类目标的提示,如“请判断这段文本的情感倾向是正面还是负面”。由于 GPT-2 在预训练阶段已经学习到了大量的语言知识和推理模式,它能够根据这些提示理解任务需求,并生成相应的输出。

        这种方法的优势在于无需为每个下游任务收集标注数据和进行训练,大大降低了任务的成本和复杂度。同时,由于模型在预训练阶段已经学习到了丰富的知识,它在处理下游任务时能够表现出色。

(1)采样策略

        自回归模型在文本生成时,有时可能会陷入重复的模式,如连续输出相同的词汇或短语,导致生成的文本缺乏多样性。如:成语接龙:一一得一,一一得一,一一得一,一一得一,一一得一。为了避免这种情况,需要采取一些采样策略来增加生成的多样性和减少重复。

        一种常见的策略是温度采样,通过调整概率分布来增加低概率词的选择机会,从而提高输出的多样性。此外,还有Top-K采样和Top-p(Nucleus)采样等方法,它们通过选择概率较高的词汇集合,并从中随机采样,以在保持文本质量的同时增加多样性。

温度采样

        温度就是说对预测结果进行概率重新设计,默认温度为1就相当于直接使用softmax,温度越高相当于多样性越丰富(雨露均沾),温度越低相当于越希望得到最准的那个。

        其实现方式相当于向量在进入softmax之前,同时除以一个温度

Top-K和Top-P

        Top-K和Top-P是两种常用的采样策略,用于在文本生成等任务中控制模型的输出,确保生成的结果既合理又具有多样性。

Top-K采样

  • 在Top-K采样中,模型会预测下一个可能的词的概率分布,然后选择概率最高的K个词作为候选词。例如,如果设定K为10,那么模型就只会从概率最高的10个词中进行选择。

Top-P(Nucleus)采样

  • Top-P采样则是一种更为灵活的采样方式。它不是选择固定数量的最高概率词,而是选择一个概率阈值P(比如0.9或0.95),然后累加概率直到达到或超过这个阈值。

        Top-K和Top-P采样都是为了剔除那些特别离谱的结果,确保模型生成的文本既合理又具有多样性。在实际应用中,可以根据具体需求和场景来选择适合的采样策略。

 3.GPT-3

        由于GPT-3庞大的规模和在大量文本数据上的预训练,GPT-3 能够在不进行特定任务微调的情况下,通过提供适当的提示(prompts)来执行多种自然语言处理任务。这种能力被称为“零样本学习”或“少样本学习”,它使得 GPT-3 在很多应用中都非常灵活和强大。

        有3种核心的下游任务方式:

  • zero shot,完全不提供示例
  • one shot,提供1个示例
  • few shot,提供少量示例

当然,给的示例越多,效果越好 

        

(1)准备数据

        在准备用于训练或微调GPT3模型的数据集时,同样需要关注数据的规模和质量。GPT3作为一个大规模预训练语言模型,对数据的要求更为严格,以确保其能够充分理解和学习语言的复杂模式和上下文关系。

        首先,数据集需要足够大,因为GPT3模型具有庞大的参数数量,需要大量的数据来充分训练和优化。通过收集大量的文本数据,可以帮助模型更好地学习和生成自然、连贯的语言。

        其次,数据的清洁和质量判断也是关键步骤。由于GPT3对文本的理解和生成能力非常强大,因此任何错误或低质量的文本都可能对模型产生负面影响。在准备数据时,需要对爬取的网页或其他文本来源进行质量评估和清洗,以确保数据的准确性和可靠性。

        针对网页数据的准备,可能需要利用自然语言处理和机器学习技术对网页进行分类和筛选。通过构建分类器来判断网页的质量和内容相关性,从而剔除重要性低或质量差的网页。这一步骤对于提高GPT3模型的性能至关重要。

        此外,如果之前有过类似的训练数据或前几代版本的GPT模型数据,可以将这些数据与新收集的数据进行整合。通过结合历史数据,可以帮助GPT3模型更好地学习和理解语言的演变和变化。

        最后,在数据准备完成后,就可以开始进行GPT3模型的训练或微调了。通过充分利用高质量、大规模的数据集,可以训练出更加准确、流畅的语言模型,为用户提供更好的语言生成和理解体验。

(2)evaluating Large Language Models Trained on Code

        使用GPT-3在github的代码上信息重新训练,将GPT-3应用于代码生成领域。

OpenAI Codex

4.chat gpt

(1)GPT系列的问题

        GPT前三代版本的文本生成模型遇到的问题是,文本生成的内容可能无法满足人的需求。同时也面临一个困境,即GPT如何不仅仅是文本生成模型,具备人的逻辑?

(2)有监督学习

        这时候,我们就需要有监督学习了,即使用有监督数据对具备强大特征表示的预训练模型进行微调。需要说明的是,有监督学习优先是学习敏感的话题的回答。

        

(3)强化模型

        在有监督模型中,预测对就是对,错就是错,但是对于生成的文本来说,我们真的能够轻易的判断对错吗?

        而强化学习只是对生成的文本进行评判,即评判生成文本的满意程度。

奖励模型

        首先,使用人工标注得到的各种预测结果,然后使用标注数据进行训练。

                 

        此时,损失约束的是让得分预测高的和得分预测低的差异足够大。 

         需要说明的是,这里使用的gpt是经过蒸馏的6亿参数版本的GPT。

强化学习更新参数

        首先,使用强化模型PPO更新模型参数,此时既要更新GPT的参数,又要更新奖励模型的参数。即使二者互相提升,互相促进。

损失函数如下:损失函数不仅考虑了预测结果,还考虑的模型的泛化能力

整体思想与一篇论文很相似:Learning to summarize from human feedback 

 多个维度效果都有提升

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/811779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTFshow电子取证——内存取证1

关于内存与注册表 内存中的注册表项 当Windows操作系统启动时&#xff0c;它会将注册表的部分数据加载到内存中&#xff0c;以便系统和应用程序可以快速地访问这些信息。这些数据在内存中可以更快地被读取和修改&#xff0c;以便系统能够动态地调整其行为和配置。 系统性能和…

工业相机飞拍功能的介绍(转载学习)

转载至&#xff1a; https://baijiahao.baidu.com/s?id1781438589726948322&wfrspider&forpc

办公软件巨头CCED、WPS迎来新挑战,新款办公软件已形成普及之势

办公软件巨头CCED、WPS的成长经历 CCED与WPS&#xff0c;这两者均是中国办公软件行业的佼佼者&#xff0c;为人们所熟知。 然而&#xff0c;它们的成功并非一蹴而就&#xff0c;而是经过了长时间的积累与沉淀。 CCED&#xff0c;这款中国大陆早期的文本编辑器&#xff0c;在上…

【vue】购物车案例优化

对 购物车案例 进行优化 用watch实现全选/取消全选用watch实现全选状态的检查用computed计算总价格 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-w…

014:vue3 van-list van-pull-refresh实现上拉加载,下拉刷新

文章目录 1. 实现上拉加载&#xff0c;下拉刷新效果2. van-list&#xff0c;van-pull-refresh组件详解2.1 van-list组件2.2 van-pull-refresh组件 3. 完整案例4. 坑点&#xff1a;加载页面会一直调用加载接口 1. 实现上拉加载&#xff0c;下拉刷新效果 通过下拉刷新加载下一页…

淘宝扭蛋机小程序:扭出惊喜,乐享购物新体验

在快节奏的现代生活中&#xff0c;人们总是在寻找新鲜、有趣的娱乐方式。淘宝扭蛋机小程序应运而生&#xff0c;为您带来前所未有的购物与娱乐结合新体验。在这里&#xff0c;每一次的扭动都充满惊喜&#xff0c;每一次的点击都带来乐趣&#xff0c;让您在购物的同时&#xff0…

4.Labview簇、变体与类(上)

在Labview中&#xff0c;何为簇与变体&#xff0c;何为类&#xff1f;应该如何理解&#xff1f;具体有什么应用场景&#xff1f; 本文基于Labview软件&#xff0c;独到的讲解了簇与变体与类函数的使用方法和场景&#xff0c;从理论上讲解其数据流的底层概念&#xff0c;从实践上…

汽车维修类中译英的英语翻译

近年来&#xff0c;随着全球化的加速和汽车市场的不断扩大&#xff0c;汽车维修领域的交流与合作也日益频繁。汽车维修类中译英的英语翻译在汽车行业中扮演着至关重要的角色。那么&#xff0c;针对汽车维修类翻译&#xff0c;中译英的英语翻译有何技巧&#xff1f; 业内人士指出…

Linux 系统解压缩文件

Linux系统&#xff0c;可以使用unzip命令来解压zip文件 方法如下 1. 打开终端&#xff0c;在命令行中输入以下命令来安装unzip&#xff1a; sudo apt-get install unzip 1 2. 假设你想要将zip文件解压缩到名为"target_dir"的目录中&#xff0c;在终端中切换到目标路…

C#/.NET/.NET Core拾遗补漏合集(24年4月更新)

前言 在这个快速发展的技术世界中&#xff0c;时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NET Core拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节&#xff0c;以帮助大家更全面地了解这些技术栈的特性和发展方向。 GitHub开源地…

Java中的单元测试Junit框架

单元测试 概述与以往的测试比较 Junit框架快速入门优点测试步骤断言机制 自动化测试 Junit框架常见注解 概述 针对最小的功能单元&#xff08;方法&#xff09;&#xff0c;编写测试代码对其进行正确性测试 与以往的测试比较 只能在main方法编写测试代码&#xff0c;去调用其…

Python实现PDF页面的删除与添加

在处理PDF文档的过程中&#xff0c;我们时常会需要对PDF文档中的页面进行编辑操作的情况&#xff0c;如插入和删除页面。通过添加和删除PDF页面&#xff0c;我们可以增加内容或对不需要的内容进行删除&#xff0c;使文档内容更符合需求。而通过Python实现PDF文档中的插入和删除…

微服务学习 Eureka注册中心

服务调用时候出现问题&#xff0c;当服务者很多时候&#xff0c;比如不同的端口。消费者如何找到服务者的地址&#xff1f;又如何判断服务者是否健康。 Eureka基本原理&#xff1a; 总结:如果有多个服务提供者&#xff0c;消费者该如何选择&#xff1f; 搭建Eureka注册中心: 1.…

LeetCode-72. 编辑距离【字符串 动态规划】

LeetCode-72. 编辑距离【字符串 动态规划】 题目描述&#xff1a;解题思路一&#xff1a;动规五部曲解题思路二&#xff1a;动态规划【版本二】解题思路三&#xff1a;0 题目描述&#xff1a; 给你两个单词 word1 和 word2&#xff0c; 请返回将 word1 转换成 word2 所使用的最…

找出mongodb的jumbo块并进行分裂

https://www.cnblogs.com/abclife/p/15968628.html 根据这篇文档中的脚本&#xff0c;在我们自己的环境中跑了下&#xff0c;第一次跑的结果如下&#xff1a; 运行完上面跑出的split脚本后&#xff0c;还是存在jumbo块&#xff0c;第二次跑出的结果&#xff1a; 从上面结果可以…

PostgreSQL15 + PostGis + QGIS安装教程

目录 下载1、PostgreSQL安装1.1、环境变量配置 2、PostGIS安装2.1、安装插件 3、QGIS下载3.1、安装3.2、测试 下载 PostgreSQL15安装&#xff1a;下载地址 PostGIS安装&#xff1a;下载地址&#xff08;倒数第二个&#xff09; 1、PostgreSQL安装 下载安装包之后一直点下一步…

Python 版分布式消息队列 Kafka 实现图片数据传输

1、Kafka 介绍 在使用 Kafka 之前&#xff0c;通常需要先安装和配置 ZooKeeper。ZooKeeper 是 Kafka 的依赖项之一&#xff0c;它用于协调和管理 Kafka 集群的状态。 ZooKeeper 是一个开源的分布式协调服务&#xff0c;它提供了可靠的数据存储和协调机制&#xff0c;用于协调…

清远某国企IBM服务器Board故障上门维修

接到一台来自广东清远市清城区某水利大坝国企单位报修一台IBM System x3650 M4服务器无法开机的故障&#xff0c;分享给大家&#xff0c;同时也方便有需要的朋友能及时找到我们快速解决服务器问题。 故障服务器型号&#xff1a;IBM System x3650 M4 服务器使用单位&#xff1a;…

厂区3D全景线上漫游体验突破现实时空阻碍

智慧园区&#xff0c;作为现代城市发展的重要引擎&#xff0c;其管理效率和安全监控的需求日益凸显。而720VR全景展示技术的引入&#xff0c;无疑为智慧园区的建设注入了新的活力。通过360全空间无死角的视觉展示&#xff0c;用户可以身临其境地感受园区的每一个角落&#xff0…

记账本|基于SSM的家庭记账本小程序设计与实现(源码+数据库+文档)

家庭记账本小程序目录 基于SSM的家庭记账本小程序设计与实现 一、前言 二、系统设计 三、系统功能设计 1、小程序端&#xff1a; 2、后台 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大…