NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA

fa39974b5886b7468c74120e381787de.png

来源:机器之心

编辑:张倩、小舟

在这篇论文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。

84ef78288828f449f61f86aba44e015a.png

当前,NLP 研究人员和从业者有大量的预训练模型可以选择。在回答应该使用什么模型的问题时,答案通常取决于需要完成什么任务。

这个问题并不容易回答,因为涉及许多更细节的问题,例如使用什么样的架构?span corruption 还是语言模型?答案似乎取决于目标下游任务。

来自谷歌的研究者重新思考了这一问题,他们具体回答了为什么预训练 LM 的选择要依赖于下游任务,以及如何预训练在许多任务中普遍适用的模型。

该研究试图让普遍适用的语言模型成为可能,提出了一个统一的语言学习范式,简称 UL2 框架。该框架在一系列非常多样化的任务和环境中均有效。

5f5698c14b13316afafe22eb85d6f9c6.png

  • 论文链接:https://arxiv.org/pdf/2205.05131.pdf

  • 代码地址:https://github.com/google-research/google-research/tree/master/ul2

如下图 1 所示,与其他需要权衡取舍的模型不同。UL2 模型的性能普遍良好。

7cf3b45ad2becb4841afca989d66cc99.png

通用模型的优势是显而易见的。有了通用模型,研究者就可以集中精力改进和扩展单个模型,而不是在 N 个模型上分散资源。此外,在只能为少数模型提供资源的受限环境下,最好有一个可以在多种任务上表现良好的预训练模型。

UL2 的核心是一种新提出的预训练目标 Mixture-of-Denoisers(MoD),可实现跨任务的强大性能。MoD 是几个成熟的去噪目标和新目标的混合体,包括考虑 extreme span 长度和损坏率的 X-denoising(extreme denoising)、严格遵循序列顺序的 S-denoising(sequential denoising)和标准 span 损坏目标的 R-denoising(regular denoising)。该研究表明,MoD 虽然在概念上很简单,但对于多种任务都非常有效。

该方法利用一种思路:对于大多数预训练目标来说,模型所依赖的上下文类型各有不同。例如,span corruption 目标类似于调用前缀语言建模 (PLM) 的多个区域(Liu et al., 2018; Raffel et al., 2019),其中前缀是 non-corrupted token 的连续片段,目标(target)具有所有 PLM 片段前缀的访问权限。span 接近全序列长度的设置可以近似看作一个以长程上下文为条件的语言建模目标。

因此,研究者认为可以设计一个预训练目标,将这些不同的范式结合起来( span corruption vs 语言建模 vs 前缀语言建模)。

不难看出,每个去噪器(denoiser)的难度不同,其外推或内插的性质也不同。

根据 MoD 的公式,研究者推测该模型不仅能在预训练期间区分不同的去噪器,而且在学习下游任务时能自适应地切换模式,这种形式是很有益的。

该研究提出了模式切换,这是一个将预训练任务与专用标记 token 相关联的新概念,允许通过离散 prompting 进行动态模式切换。该模型在经过预训练后能够按需在 R、S 和 X 去噪器之间切换模式。

然后,研究者将该架构与自监督方案解耦。虽然「预训练模型的主要特征是其主干架构」这一说法可能是一个常见的误解,但研究者发现,denoiser 的选择实际上具有更大的影响。MoD 支持任一主干架构,类似于 T5 的 span corruption 可以用一个 decoder-only 模型来训练。因此,架构的选择对 UL2 影响不大。研究者认为主干架构的选择主要是不同效率指标之间的权衡。

研究者在 9 种不同的任务上进行了系统的消融实验,这 9 个任务旨在解决不同的问题。

此外,该研究在开放文本生成任务上进行了评估,并在基于 prompt 的单样本环境下对所有任务进行了评估。消融实验的结果表明,UL2 在所有 9 个任务上都优于 T5 和 GPT 类基线。平均而言,UL2 比 T5 基线高出 +43.6%,比一个语言模型高出 +76.1%。在其他竞争基线中,UL2 是唯一在所有任务上都优于 T5 和 GPT 类模型的方法。

研究者进一步将 UL2 扩展到大约 20B(准确地说是 19.5 B)参数的中等规模,并在包含 50 多个 NLP 任务的多样化的组合中进行实验,这些任务包括语言生成(具有自动和人工评估)、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识基础和信息检索。实验结果表明,UL2 在绝大多数任务和环境下都达到了 SOTA。

最后,研究者使用 UL2 进行了零 / 少样本实验,并表明 UL2 在零样本 SuperGLUE 上的性能优于 GPT-3 175B。与 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022) 和 ST-MoE (Zoph et al., 2022) 等较新的 SOTA 模型相比,UL2 尽管仅在 C4 语料库上进行了训练,但在计算匹配环境下的性能仍然极具竞争力。

研究者深入分析了零样本与微调性能之间的权衡,表明 UL2 在两种学习范式上都是帕累托有效的。UL2 的性能是一个 LM adapted T5 XXL 模型的三倍,在相同的计算成本下可与 PaLM 和 LaMDA 媲美。

这篇论文的(并列)第一作者是谷歌 AI 高级研究科学家 Yi Tay 和谷歌大脑研究科学家 Mostafa Dehghani。

Yi Tay 2019 年在新加坡南洋理工大学拿到计算机科学博士学位。他是一位高产的论文作者,曾在 2018 年一年之内以第一作者身份发表了 14 篇领域内顶会论文。此外,他的论文也拿到过多个奖项,如 ICLR 2021 年杰出论文奖、WSDM 2021 年最佳论文奖(亚军)和 WSDM 2020 年最佳论文奖(亚军)。此外,他还曾担任 EMNLP 和 NAACL 等顶级 NLP 会议的区域主席。

2e0938ddddb31e136b33cea849e59f2c.png

Mostafa Dehghani 在阿姆斯特丹大学拿到的博士学位,获得过 ACM SIGIR ICTIR 2016 年最佳论文奖等奖项。他在谷歌主要研究基于注意力的视觉和语言模型,是热门论文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》的作者之一。

59a9fdf6bdd4b647d698208d0f08c823.png

以下是论文细节。

UL2 详解

用统一视角看预训练任务

许多预训练任务可以被简单地表述为「输入到目标(input-to-target)」型任务,其中输入指的是模型所依赖的任何形式的记忆或上下文,而目标是模型的预期输出。语言模型使用所有以前的时间步作为输入来预测下一个 token,即目标。在 span corruption 中,模型利用来自过去和未来的所有未损坏的 token 作为预测 corrupted span(目标)的输入。Prefix-LM 是使用过去的 token 作为输入的语言模型,但它双向使用输入:这比普通语言模型中输入的单向编码提供了更强的建模能力。

从这个角度来看,我们可以将一个预训练目标简化为另一个目标。例如,在 span corruption 目标中,当 corrupted span(目标)等于整个序列时,该问题实际上就变成了一个语言建模问题。考虑到这一点,使用 span corruption,通过将 span 长度设置得很大,我们可以在局部区域中有效地模拟语言建模目标。

研究者们定义了一个符号,它涵盖了本文中使用的所有不同的去噪任务。去噪任务的输入和目标由 SPANCORRUPT 函数生成,该函数由三个值 (µ, r, n) 来参数化,其中 µ 是平均 span 长度,r 是 corruption rate,n 是 corrupted span 的数量。注意,n 可能是输入长度 L 和 span 长度 µ 的函数,如 L/µ,但在某些情况下,研究者使用 n 的固定值。给定输入文本,SPANCORRUPT 将 corruption 引入从具有 u 均值的(正态或均匀)分布中提取的长度的 span。在 corruption 之后,输入文本被馈送到去噪任务,corrupted span 被用作要恢复的目标。

举个例子,用这个公式来构建一个类似于因果语言建模的目标,只需设置 (µ = L, r = 1.0, n = 1) ,即单个 span 的长度等于序列的长度。要表达一个类似于 Prefix LM 的目标,可以设置 (µ = L − P, r = 1.0 − P/L, n = 1) ,其中 P 是 prefix 的长度,附加的约束是单个 corrupted span 总是到达序列的末尾。

研究者注意到,这种 inputs-to-target 的公式既可以应用于编码器 - 解码器模型,也可以应用于单栈 Transformer 模型(如解码器模型)。他们选择了预测下一个目标 token 的模型,而不是就地预测的模型(例如 BERT 中的预测当前掩蔽 token),因为下一个目标公式更通用,并且可以包含更多的任务,而不是使用特殊的「CLS」token 和特定于任务的 projection head。

Mixture of Denoisers 

46e7369032a4cc0d3a4f04528ab6ea57.png

研究者认为,在预训练期间,一个强大的通用模型必须去面对、解决不同的问题集。假设预训练是使用自监督完成的,研究者认为这种多样性应该被注入到模型的目标中,否则模型可能会缺乏某种能力,比如连贯长文本生成能力。

基于此,以及当前的目标函数类型,他们定义了预训练期间使用的三种主要范式:

  • R-Denoiser,regular denoising 是 Raffel et al. (2019) 引入的标准 span corruption,它使用 2 到 5 个 token 作为 span length,遮蔽了大约 15% 的输入 token。这些 span 非常短,可能有助于知识获取(而非学习生成流畅的文本)。

  • S-Denoiser,去噪的一种具体情况,在构建 inputs-to-targets 任务时遵守严格的顺序,即 prefix 语言建模。为此,研究者只需将输入序列划分为两个 token 子序列,分别作为上下文和目标,这样目标就不依赖于未来的信息。这与标准 span corruption 不同,在标准 span corruption 中,可能存在位置比上下文 token 更早的目标 token。注意,与 Prefix-LM 设置类似,上下文(prefix)保留了一个双向感受野。研究者注意到,具有非常短的记忆或没有记忆的 S-Denoising 与标准的因果语言建模的精神是相似的。

  • X-Denoiser,去噪的一种 extreme 版本,模型必须恢复输入的绝大部分。这模拟了模型需要借助有限信息记忆生成长目标的情况。为此,研究者选择了包含积极去噪的例子,其中大约 50% 的输入序列被遮蔽。这是通过增加 span 长度和 / 或 corruption 率来实现的。如果预训练任务 span 长(如≥ 12 个 token)或 corruption 率高(如≥ 30%),就认为该任务是 extreme 的。X-denoising 的动机是作为常规 span corruption 和类似目标的语言模型之间的插值而存在。

acd49e2b64e80c6f9dc7020e631d0c85.png

这组 denoiser 与先前使用的目标函数有很强的联系:R-Denoising 是 T5 span corruption 目标,S-Denoising 与类 GPT 的因果语言模型相关,而 X-Denoising 可以将模型暴露给来自 T5 和因果 LM 的目标的组合。值得注意的是,X-denoiser 也被连接起来以提高样本效率,因为在每个样本中可以学习到更多的 token 来预测,这与 LM 的理念类似。研究者提出以统一的方式混合所有这些任务,并有一个混合的自监督的目标。最终目标是混合 7 个去噪器,配置如下:

4f293ac440f13d45fc46c4305779ba94.png

对于 X - 和 R-Denoiser,span 长度从均值为 µ 的正态分布中采样。对于 S-denoiser,他们使用均匀分布,将 corrupted span 的数量固定为 1,并且具有额外的约束,即 corrupted span 应该在原始输入文本的末尾结束,在 corrupted 部分之后不应该出现未被裁剪的 token。这大致相当于 seq2seq 去噪或 Prefix LM 预训练目标。

由于 LM 是 Prefix-LM 的一种特殊情况,研究者认为没有必要在混合中包含一个偶然的 LM 任务。所有任务在混合中具有大致相同的参与度。研究者还探索了一种替代方案,他们将混合配置中 S-denoiser 的分量增加到 50%,其余份额由其他 denoiser 共享。

最后,「混合」这一动作使得 Mixture-of-Denoisers 具有非常强的通用性。单独来看,一些 denoiser 类型表现不佳。例如,最初的 T5 论文探索了一个具有 50% corruption rate 的选项(X-denoising),但发现效果不佳。

UL2 的 Mixture-of-Denoisers 的实现非常简单,使用 seqio3 之类的库很容易实现。

模式切换

研究者引入了通过模式切换进行范式转换的概念。在预训练期间,他们为模型提供了一个额外的范式 token,即 {[R],[S],[X]},这有助于模型切换到更适合给定任务的模式。对于微调和下游 few-shot 学习,为了触发模型学习更好的解决方案,研究者还添加了一个关于下游任务的设置和要求的范式 token。模式切换实际上是将下游行为绑定到上游训练中使用的模式之一上。

消融实验结果

表 2 显示了在所有基准测试任务和数据集上的原始结果。

ffa2f0f145f18d2ec5d1f7d52fa8ba7e.png

为了方便不同设置之间的比较,研究者还给出了 UL2 与已建立的基线(如 T5 和 GPT 模型)的相对比较,如表 3 和表 4 所示。

5846a6eea5d199cc86337f3ceb94eb02.png

58cd543122239f8755475f37f205486d.png

扩展到 200 亿参数之后的结果

图 8 显示了 UL20B 在不同任务中与之前 SOTA 的对比结果。

6534b79df55c23d31b75b751518e952d.png

7357bf3bae994e3d927b20d0b4be0d77.png

更多细节请参见原论文。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

61a144c79294384e955d1dab6dc89823.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

赫夫曼树编码的算法及应用习题--数据结构

赫夫曼树编码的算法及应用习题 1.构造赫夫曼树的方法 1.根据给定的n个权值{w1,w2,---wn},构成n棵二叉树的集合F{T1,T2...,Tn},其中每棵二叉树中只有一个带权为Wi的根结点,其左右子树为空。 2.在F中选取两棵根结点的权值最小的树作为左右子树&#xff…

吴咏时:未来基础学科发展的“铁三角”

来源: 节选自《物理》2022年第5期《圆桌论坛:对21世纪物理学的愿景展望》。2021年9月,在清华大学举行“庆祝杨振宁先生百年华诞思想研讨会”圆桌论坛环节上,美国犹他大学教授吴咏时对今后基础物理学做了一番展望。他指出了基础物理…

树的叶子结点与完全二叉树结点计算方法

一:完全二叉树中结点问题 分析: 设叶子节点个数为n0,度为1的节点个数为n1,度为2的节点个数为n2 侧有 n0n1n2n (1) 对于二叉树有: n0n21 (2) 由(1)(2) > n0(n1-n1)/2 (3) 由完全二叉树…

图的知识点总结-数据结构

一&#xff1a;图的基本概念和术语 1.图之间的关系可以是任意的&#xff0c;任意两个数据元素之间都可能相关。 2.顶点&#xff1a;数据元素。 3.边or弧&#xff1a;从一个顶点到另一个顶点的路径。<V, W>表示弧&#xff0c;&#xff08;V,W&#xff09;表示边&#x…

当物理学遇到机器学习:基于物理知识的机器学习综述

来源&#xff1a;集智俱乐部作者&#xff1a;潘佳栋 审校&#xff1a;梁金编辑&#xff1a;邓一雪摘要物理信息机器学习&#xff08;Physics-informed machine learning&#xff0c;PIML&#xff09;&#xff0c;指的是将物理学的先验知识&#xff08;历史上自然现象和人类行为…

图的遍历——深度优先搜索+广度优先搜索

一&#xff1a;图的遍历——深度优先搜索 在本文其他内容中只是大体概括了主要的图论内容&#xff0c;更加详细的代码实现及算法分析在此给出。 深度优先搜索&#xff08;DFS&#xff09;类似树的先序遍历。 假设初始状态是图中所有顶点未曾被访问&#xff0c;则深度优先搜索…

RISC-V何以成功?

来源&#xff1a;AI前线作者&#xff1a;BRIAN BAILEY译者&#xff1a;王强策划&#xff1a;刘燕RISC-V 处理器架构的诞生毫无疑问让很多人都为之兴奋不已。然而&#xff0c;尽管许多人都说 RISC-V 预示着我们将迎来更广泛的开源硬件运动&#xff0c;但这种架构究竟为什么取得成…

最小生成树——普里姆算法和克鲁斯卡尔算法

最小生成树 用来解决工程中的代价问题。 一&#xff1a;普里姆算法 具体代码用C语言实现如下&#xff1a; typedef int VRType;typedef char InfoType;#define MAX_NAME 3 /* 顶点字符串的最大长度1 */#define MAX_INFO 20 /* 相关信息字符串的最大长度1 */typedef char Vert…

大雅之美:十位大数学家心中最美的公式

来源&#xff1a;本文译自 http://www.concinnitasproject.org/portfolio/&#xff0c;中译文曾发表于 《中国数学会通讯》2017 年第 1 期。译者&#xff1a;刘云朋&#xff0c;天津大学理学院校译&#xff1a;林开亮大雅之美&#xff1a;十位大数学家心中最美的公式牛顿法Ste…

TabError的解决方法

问题&#xff1a;Python文件运行时报TabError: inconsistent use of tabs and spaces in indentation 原因&#xff1a;说明Python文件中混有Tab和Space用作格式缩进。这通常是使用外部编辑器编辑Python文件时&#xff0c;自动采用Tab进行格式缩进。 解决&#xff1a;将Tab转…

《Nature》:给老年小鼠注射年轻小鼠的脑脊液可以改善记忆力!

来源&#xff1a;生物通一个国际研究团队发现&#xff0c;向老年小鼠注射年轻小鼠的脑脊液可以改善记忆。在发表在《自然》(Nature)杂志上的论文中&#xff0c;该小组描述了一种技术&#xff0c;可以从年轻小鼠体内取出少量脑脊液&#xff0c;并将其注射到年老小鼠的大脑中&…

HashSet存储自定义对象保证元素唯一性图解原理及代码优化

HashSet存储自定义对象保证元素唯一性图解原理及代码优化 1.原理&#xff1a; * 1.HashSet原理 * 我们使用Set集合都是需要去掉重复元素的, 如果在存储的时候逐个equals()比较, 效率较低,哈希算法提高了去重复的效率, 降低了使用equals()方法的次数 * 当Hash…

马斯克:推特发帖机器人太多,现在起搁置440亿美元收购

来源&#xff1a;智能研究院前言直播「尽职调查」&#xff0c;压价还是打退堂鼓&#xff1f;「因为现在要计算推特上虚假账号的数量是否占 5% 以下&#xff0c;所以推特的收购暂时被搁置了&#xff0c;」5 月 13 日晚&#xff0c;全球首富伊隆 马斯克突然发推说道。马斯克与推…

Web 3.0?高成本版的P2P而已

来源&#xff1a;AI前线作者&#xff1a;Marcel Waldvogel译者&#xff1a;核子可乐策划&#xff1a;钰莹最近&#xff0c;Web 3.0 火的不行&#xff0c;有人认为&#xff0c;它将是互联网的未来式&#xff0c; Web 3.0 代表着对互联网的根本性改造&#xff0c;一个新的 Web 世…

JAVA面试题:HashMap和Hashtable的区别

HashMap和Hashtable的区别 1.共同点:都是双列集合,底层都是哈希算法 2.区别: * 1.HashMap是线程不安全的&#xff0c;效率高&#xff0c;JDK1.2版本 * Hashtable是线程安全的&#xff0c;效率低&#xff0c;JDK1.0版本 * 2.HashMap可以存储null键和null值 * Hashtable不可以存…

CICC城市大脑术语规范术语与定义征集

2022年2月&#xff0c;《城市大脑系列建设标准规范》项目由中国指挥与控制学会&#xff08;CICC&#xff09;正式启动&#xff0c;4月14日通过立项评审&#xff0c;根据城市大脑标准的前期工作和中国指挥与控制学会《城市大脑系列建设标准规范》立项会的专家意见&#xff0c;形…

最短路径——迪杰斯特拉算法——图的数据结构

最短路径是在工程上经常用到的概念&#xff0c;在这里给出了从单源点到任意顶点的迪杰斯特拉算法。 先来看看基本概念&#xff1a; 用代码C语言实现如下&#xff1a; #include<string.h>#include<ctype.h>#include<malloc.h> /* malloc()等 */#include<…

盖亚假说:地球是一个生命体吗?

来源&#xff1a;微信公众号“集智俱乐部”原文&#xff1a;Is the Earth an organism?https://aeon.co/essays/the-gaia-hypothesis-reimagined-by-one-of-its-key-sceptics。撰文&#xff1a;W Ford Doolittle翻译&#xff1a;Leo审校&#xff1a;赵雨亭在漫长的地球生物的演…

拓扑排序和关键路径

一&#xff1a;拓扑排序 前面讲过拓扑排序只是简单的描述&#xff0c;下面具体的实现。 用顶点表示活动&#xff0c;用弧表示活动间的优先关系的有向图为AOV网。 AOV网中没有环&#xff0c;检测的办法是进行拓扑排序。 步骤&#xff1a; (1)在有向图中选一个没有前驱的顶点…

Science:睡眠医学的突破,大脑会在梦境中巩固积极情绪

来源&#xff1a;学术头条处理情绪&#xff0c;特别是区分危险和安全&#xff0c;对动物的生存至关重要。在人类中&#xff0c;过度的负面情绪&#xff0c;如恐惧反应和焦虑状态&#xff0c;会导致创伤后应激障碍&#xff08;PTSD&#xff09;等病理状态。在欧洲&#xff0c;就…