人工智能论文GPT-3(2):2020.5 Language Models are Few-Shot Learners;微调;少样本Few-Shot (FS)

2 方法Approach

我们的基本预训练方法,包括模型、数据和训练,与GPT-2中描述的过程相似,只是模型规模、数据集规模和多样性,以及训练时长有所扩大,相对简单直接。

我们使用的上下文学习也与GPT-2相似,但在这项工作中,我们系统地探索了不同上下文学习设置。

因此,我们首先明确定义并对比我们将评估GPT-3的不同设置,或者原则上可以评估GPT-3的设置。

这些设置可以被看作是一个谱系,它们依赖任务特定数据的程度各不相同。具体来说,我们可以在这个谱系上至少识别出四个点(如图2.1所示):

微调Fine-Tuning (FT)

微调(FT)是近年来最常见的方法,涉及在针对所需任务的监督数据集上训练,以更新预训练模型的权重。通常使用数千到数十万个带标签的示例。

微调的主要优势是在许多基准测试上表现出色。

主要缺点是每个任务都需要一个新的大型数据集,可能导致分布外泛化性能不佳[MPL19],以及可能利用训练数据的虚假特征[GSL+18, NK19],

这可能导致与人类性能的比较不公平。在这项工作中,我们没有对GPT-3进行微调,因为我们的重点是任务无关的性能,但原则上可以对GPT-3进行微调,这是未来工作的一个有前景的方向。

少样本Few-Shot (FS)

在本工作中,我们将使用“少样本(FS)”这一术语来指代这样一种设置:在推理时,模型接收到任务的几个演示作为条件输入[RWC+19],但不允许进行权重更新。

如图2.1所示,对于典型的数据集,一个示例包括一个上下文和一个期望的完成内容(例如一个英文句子和对应的法文翻译),少样本学习的工作方式是通过提供K个上下文和完成内容的示例,然后提供一个最终的上下文示例,模型需要提供对应的完成内容。我们通常将K设置在10到100的范围内,因为这么多示例可以适应模型的上下文窗口(nctx = 2048)。

少样本学习的主要优势是大大减少了对任务特定数据的需求,并降低了从大而狭窄的微调数据集中学习过于狭窄分布的可能性。

主要缺点是,这种方法的结果到目前为止比最先进的微调模型差得多。此外,仍然需要少量的任务特定数据。正如名称所示,这里描述的用于语言模型的少样本学习与机器学习(ML)中其他上下文中使用的少样本学习[HYC01, VBL+16]有关——两者都涉及基于广泛的任务分布进行学习(在这种情况下隐含在预训练数据中),然后迅速适应新任务。

一样本One-Shot (1S)

一样本(1S)与少样本相同,只是除了自然语言的任务描述外,只允许一个演示,如图1所示。将一样本与少样本和零样本(下面将介绍)区分开来的原因是,它最符合人类接收任务指令的方式。例如,当要求人类工作者在人工服务(如Mechanical Turk)上生成数据集时,通常会给出一个任务演示。相比之下,如果不提供示例,有时很难传达任务的内容或格式。

零样本Zero-Shot (0S)

零样本(0S)与一样本相同,只是不允许提供任何演示,模型仅接收描述任务的自然语言指令。这种方法提供了最大的便利性和潜在的鲁棒性,避免了虚假关联(除非它们在大规模预训练语料库中广泛出现),但同时也是最具挑战性的设置。在某些情况下,没有先前的示例,人类可能难以理解任务的格式,因此这种设置在某些情况下“过于困难”。例如,如果有人被要求“制作一份200米短跑世界纪录表”,这个请求可能是模糊的,因为可能不清楚表格的确切格式或应包含哪些内容(即使经过仔细澄清,也很难准确理解所需的内容)。然而,至少在某些情况下,零样本与人类执行任务的方式最为接近——例如,在图2.1中的翻译示例中,人类可能仅根据文本指令就知道该怎么做。

图2.1展示了使用英语到法语翻译示例的四种方法。在本文中,我们主要关注零样本、一样本和少样本,目的是将它们作为不同的问题设置进行比较,而不是作为相互竞争的替代方案,这些设置提供了在特定基准上的性能和样本效率之间的不同权衡。我们尤其强调少样本的结果,因为其中许多结果仅略逊于最先进的微调模型。然而,最终,一样本,有时甚至零样本,似乎是与人类性能最公平的比较,也是未来工作的重要目标。

以下2.1至2.3节分别详细介绍了我们的模型、训练数据和训练过程。2.4节讨论了如何进行少样本、一样本和零样本评估的细节。

Ankie的评论:

GPT-3论文标题明确指出:“Language Models are Few-Shot Learners”,这揭示了GPT-3模型采用了少样本(few-shot)学习模式,而非传统的微调模式。GPT-3致力于实现通用人工智能的目标,因此它选择了少样本模式进行推理,而不是仅仅通过微调来应试。在少样本模式下,模型接收任务的几个演示作为条件输入,但不进行权重更新,从而保持其通用性和灵活性。

然而,少样本模式也存在一些局限性。相比于微调模式,它在应对特定任务时的应试能力可能稍逊一筹。这是因为微调模式允许模型针对特定任务进行更深入的学习和适应,而少样本模式则更注重模型的泛化能力。尽管如此,GPT-3通过采用少样本学习模式,展现出了强大的推理和生成能力,为通用人工智能的实现迈出了重要的一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud系列(8)--将服务提供者Provider注册进Eureka Server

前言:上一章节我们介绍了Eureka服务端的安装与配置,本章节则介绍关于微服务如何入职Eureka Server Eureka架构原理图 1、修改provider-payment8001子模块的pom.xml文件,引入Eureka Clinet的依赖,然后reolad一下,下载依…

Parade Series - CoreAudio Loopback

Scenario 鉴于业务场景需要, 经过技术路径探索, 发现 comtypes 兼容性过于混乱,故而考虑整合一个 CoreAudio 的轮子dll来解决实际问题!std::StringStream ⇒ std::ios::binary ⇒ std::ofstream Loopback.dll #ifndef _DLL_C…

数学建模--非线性规划模型+MATLAB代码保姆式解析

目录 1.简单介绍 2.求解方法 3.适用赛题 4.典型例题及相关分析 (1)问题引入 (2)决策变量&约束条件 (3)确定目标函数 (4)建立数学模型 5.MATLAB代码祝逐字句讲解 1.简单…

批量添加集合元素

方法一: Collections.addAll() 方法内部会迭代传递给它的元素列表&#xff0c;并将每个元素添加到目标集合中。 List<Integer> list new ArrayList<>();Collections.addAll(list,1,2,3,4,5); 方式二: ArrayList 类有一个构造函数&#xff0c;它接受一个 Colle…

Redis系列之Cluster集群搭建

在上一篇博客&#xff0c;我们学习Redis哨兵Sentinel集群的搭建&#xff0c;redis的哨兵模式提供了比如监控、自动故障转移等高可用方案&#xff0c;但是这种方案&#xff0c;容量相对固定&#xff0c;要进行持续扩容或者数据分片就不适合&#xff0c;所以有另外一种更复杂的集…

CentOS常见命令

以下是一些常见的CentOS命令&#xff1a; 管理文件和目录&#xff1a; ls&#xff1a;列出目录中的文件和子目录。cd&#xff1a;切换目录。mkdir&#xff1a;创建一个新的目录。rm&#xff1a;删除文件或目录。cp&#xff1a;复制文件或目录。mv&#xff1a;移动或重命名文件…

探索Java设计模式:桥接模式

探索Java设计模式&#xff1a;深入理解与实践桥接模式 桥接模式&#xff08;Bridge Pattern&#xff09;是一种结构型设计模式&#xff0c;它将抽象部分与其实现部分分离&#xff0c;使它们可以独立变化。在Java编程中&#xff0c;桥接模式常用于实现多维度变化、降低类的层次…

图像处理的魔法师:Pillow 库探秘

文章目录 图像处理的魔法师&#xff1a;Pillow 库探秘第一部分&#xff1a;背景介绍第二部分&#xff1a;库是什么&#xff1f;第三部分&#xff1a;如何安装这个库&#xff1f;第四部分&#xff1a;库函数使用方法第五部分&#xff1a;场景应用第六部分&#xff1a;常见Bug及解…

YOLOv9改进策略 | 添加注意力篇 | 利用ILSVRC冠军得主SENetV1改善网络模型特征提取能力

一、本文介绍 本文给大家带来的改进机制是SENet&#xff08;Squeeze-and-Excitation Networks&#xff09;其是一种通过调整卷积网络中的通道关系来提升性能的网络结构。SENet并不是一个独立的网络模型&#xff0c;而是一个可以和现有的任何一个模型相结合的模块(可以看作是一…

最新Java面试题3【2024中级】

互联网大厂面试题 1&#xff1a;阿里巴巴Java面试题 2&#xff1a;阿里云Java面试题-实习生岗 3&#xff1a;腾讯Java面试题-高级 4&#xff1a;字节跳动Java面试题 5&#xff1a;字节跳动Java面试题-大数据方向 6&#xff1a;百度Java面试题 7&#xff1a;蚂蚁金服Java…

消息转化器(解决由于后端给前端响应的格式中不能处理Long类型,因为js只会处理前16位,这样会导致后面的精度丢失)

问题描述&#xff1a;由于后端给前端响应的格式中不能处理Long类型&#xff0c;因为js只会处理前16位&#xff0c;这样会导致后面的精度丢失。 解决方法&#xff0c;将后端响应给前端的数据转化位JSON格式&#xff0c;将long类型的序列化一下 下面为具体方法(JAVA对象转化为J…

PyCharm,终端conda环境无法切换的问题(二个解决方案)

问题 PyCharm终端&#xff0c;环境切换无效&#xff0c;默认始终为base 解决一 Settings->Tools->Terminal->ShellPath&#xff0c;将powershell修改为cmd.exe 解决二 conda config --show在输出中找到 auto_activate_base 的行&#xff0c;发现被设置为 true&#x…

HTML作业

作业1: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>.down…

腾讯云开通幻兽帕鲁服务器需要多少钱?30元

腾讯云开通一个幻兽帕鲁服务器需要多少钱&#xff1f;32元1个月&#xff0c;腾讯云专用幻兽帕鲁服务器最低只要32元1个月&#xff0c;配置为4核16G12M&#xff0c;96元3个月、156元6个月。幻兽帕鲁专用服务器8核32G22M配置115元1个月、345元3个月。幻兽帕鲁服务器活动页面 txyb…

GateWay基本配置

在现代的微服务架构中&#xff0c;网关是一个非常重要的组件&#xff0c;它充当了所有外部请求的入口&#xff0c;负责路由、过滤、监控等功能。Spring Cloud Gateway是一个基于Spring Framework 5、Project Reactor和Spring Boot 2的网关服务&#xff0c;它提供了一种简单而有…

Android Studio Iguana | 2023.2.1配置优化

一. 前言 本篇文章记录最新版本的Android Studio的配置优化&#xff0c;写这篇文章的是由于电脑中的AS工具更新版本覆盖安装后&#xff0c;AS会经常卡死&#xff0c;Debug的时候也经常莫名其妙的断掉&#xff0c;非常影响工作效率&#xff0c;所以重新把配置环境整理一下&#…

Beautiful Soup 库介绍

Beautiful Soup 是一个用于解析和处理 HTML 或 XML 文档的 Python 库。它提供了一套简单易用的工具&#xff0c;可以帮助您从网页中提取数据、导航文档结构、修改文档内容等。 主要功能: 解析 HTML 或 XML 文档: Beautiful Soup 可以将 HTML 或 XML 文档解析为树状结构&#…

11.事件处理

事件处理 我们可以使用 v-on 指令 (简写为 ) 来监听 DOM 事件&#xff0c;并在事件触发时执行对应的 JavaScript。用法&#xff1a;v-on:click"methodName" 或 click"handler" 事件处理器的值可以是 内联事件处理器&#xff1a;事件被触发时执行的内联 J…

[阅读笔记21][RA-CM3]Retrieval-Augmented Multimodal Language Modeling

这篇论文是meta联合斯坦福在23年4月发表的论文&#xff0c;提出了一个使用外部知识检索增强的多模态模型。 这篇模型提出的RA-CM3模型是第一个能够检索并生成图像文本的多模态模型&#xff0c;在图像文本生成任务上优于现有的多模态模型&#xff0c;同时使用更少的训练量。 RA-…

.NET StackExchange.Redis 操作redis

下面是一个简单的示例&#xff0c;展示了如何使用 C# 中的 StackExchange.Redis 库与 Redis 进行交互&#xff0c;包括字符串&#xff08;String&#xff09;、哈希&#xff08;Hash&#xff09;、列表&#xff08;List&#xff09;、集合&#xff08;Set&#xff09;和有序集合…