Anthropic 公司研究人员从简单的 AI 中获得关于 Transformer 的新理解

3e59b27027f2ad58c9ca8df542aea22e.png

来源:ScienceAI

编辑 :橘子皮

在过去的两年里,人工智能程序的语言流畅度达到了惊人的水平。其中最大和最好的都是基于 2017 年发明的称为 Transformer 的架构。它以方程式列表的形式作为程序遵循的一种蓝图。

但除了这个简单的数学大纲之外,我们真的不知道 Transformers 对它们处理的单词做了什么。普遍的理解是,它们可以以某种方式同时关注多个单词,从而可以立即进行「大图」分析,但是这究竟是如何工作的——或者它是否是理解 Transformers 的准确方式——尚不清楚。就好比一道菜,我们只知道成分,但不知道配方。

现在,来自 Anthropic 公司的研究人员进行的两项研究,已经开始从根本上弄清楚 Transformers 在处理和生成文本时在做什么。在他们于 12 月发布的第一篇论文中,作者着眼于架构的简化版本并充分解释了它们的功能。以色列海法理工学院的 Yonatan Belinkov 说:「它们很好地描述了它们在非常简单的情况下是如何工作的……我对这项工作感到非常积极。它很有趣,有点独特和新颖,很有前途。」

959b002e95d24ba83a1f37d7c99d1f4f.png

论文链接:https://transformer-circuits.pub/2021/framework/index.html

作者还表明,简单的 Transformer 从学习基本语言模式到获得语言处理的一般能力。「你会看到能力的飞跃。」哈佛大学的 Martin Wattenberg 说, 作者是在「破译配方」。

在 3 月 8 日发表的第二篇论文中,研究人员表明,负责这种能力的相同组件也在最复杂的Transformer中发挥作用。虽然这些模型的数学在很大程度上仍然难以理解,但结果为理解提供了一个途径。「他们在玩具模型中发现的东西可以转化为更大的模型。」Conjecture 公司和研究小组 EleutherAI 的 Connor Leahy 说。

e70a32289c40a071763607e00cf07a37.png

论文链接:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 Transformer 的难点在于它们的抽象性。传统程序遵循可理解的过程,例如每当看到「green」一词时就输出「grass」一词,而 Transformer 将「green」一词转换为数字,然后将它们乘以某些值。这些值(也称为参数)决定下一个单词是什么。它们在称为训练的过程中得到微调,模型学习如何产生最佳输出,但尚不清楚模型正在学习什么。

大多数机器学习程序将它们的数学打包成称为神经元的模块化成分。Transformer 加入了一种额外的成分,称为注意力头,它的头组分层排列(就像神经元一样)。但是头部执行与神经元不同的操作。头部通常被理解为允许程序记住输入的多个单词,但这种解释远非确定。

「注意力机制显然有效。它取得了很好的效果。」Wattenberg 说,「问题是:它在做什么?我的猜测是它正在做很多我们不知道的事情。」

为了更好地理解 Transformer 的工作原理,Anthropic 研究人员简化了架构,去掉了所有的神经元层和除一层或两层注意力头之外的所有层。这让他们发现了 Transformer 和他们完全理解的更简单模型之间的联系。

考虑一种最简单的语言模型,称为二元模型,它再现了基本的语言模式。例如,在对大量文本进行训练时,二元模型会注意单词「green」后面最常出现的单词(例如「grass」)并记住它。然后,在生成文本时,它会重现相同的模式。通过为每个输入单词记住一个相关的后续单词,它可以获得非常基本的语言知识。

研究人员表明,具有一层注意力头的 Transformer 模型做了类似的事情:它再现了它所记忆的内容。假设你给它一个特定的输入,比如「史密斯医生去商店,因为医生……」这个输入被称为提示或上下文。对我们来说,下一个词是显而易见的——史密斯。

训练有素的单层模型中的注意力头可以分两步进行此预测。首先,它查看上下文中的最后一个词(医生),并在它已经学习(在训练期间)的上下文中搜索一个特定的词以与最后一个词相关联。然后,对于它找到的任何单词,它会查找另一个它已经学会的,且与找到的单词相关联的单词,就像在二元模型中一样(这可以是同一个词)。然后它将这个关联的词移动到模型的输出中。

对于这个例子,研究人员表明,根据最后一个词「医生」,头部从训练中知道搜索一个通用名称的词。在句子前面找到「Smith」这个名字时,头部会查看它所学到的与「Smith」相关联的内容,并将该词移动到输出中。(在这种情况下,模型已经学会将同一个词「Smith」与找到的词「Smith」相关联。)整个过程的净效果是模型将「Smith」这个词从上下文复制到输出。

「在这里,我们实际上可以理解注意力的作用。」共同作者之一 Anthropic 的 Chris Olah 说。

但记忆只能采取模型到目前为止。考虑一下当史密斯的名字变成一个虚构的名字时会发生什么,比如「Gigamuru」。对我们来说,句子完成仍然很明显——Gigamuru——但模型在训练期间不会看到虚构的词。因此,它不可能记住它与其他词之间的任何关系,也不会生成它。

Anthropic 团队发现,当他们研究一个更复杂的模型时——一个有两层注意力头的模型——一个解决方案出现了。它依赖于注意力头独有的能力:他们不仅可以将信息移动到输出,还可以移动到上下文中的其他位置。使用这种能力,第一层的头部学习用关于它之前的单词的信息来注释上下文中的每个单词。然后,第二个头可以搜索以单词「医生」(在本例中为「Gigamuru」)之前的单词,并像单层模型中的头一样,将其移动到输出。研究人员将后一层中的注意力头与前一层中的头协作称为感应头。它不仅仅是记忆。

「它正在做一些看起来更像抽象推理或实现算法的事情。」Anthropic 的 Nelson Elhage 说,他也是合著者,「这有点那种味道。」

感应头让两层模型做得更多,但它们与全尺寸Transformer的相关性尚不清楚,它们有数百个注意力头协同工作。在他们的第二篇论文中,研究人员发现这些发现得到了延续:感应头似乎对最复杂的多层架构的一些显著行为做出了重大贡献。

在这些行为中,算术的能力很显著,因为模型只被训练来完成文本。例如,如果给出重复提示:「问:48 加 76 等于多少?答:124,问:48 加 76 等于多少?A:……」一个完整的模型会得到正确的答案。并且在给出足够多的非重复示例后,它将能够正确回答它从未见过的算术问题。这种从上下文中明显学习新能力的现象称为上下文学习。

这种现象令人费解,因为从上下文中学习是不可能的。这是因为决定模型性能的参数仅在训练期间进行调整,而不是在模型处理输入上下文时进行调整。

感应头至少解决了部分难题。他们解释了上下文学习的简单、重复形式是多么可能,提供了所需要的:复制模型尚未经过训练可以使用的新词(如「Gigamuru」或「124」)的能力。

「感应头更有可能做任何模式,即使它有点奇怪或新奇。」另一位合著者 Anthropic 的 Catherine Olsson 说。

研究人员更进一步,在多层模型中识别感应头,并表明它们参与了更新颖的上下文学习形式,例如学习语言之间的翻译。

「这并不是要解释整个机制。」OpenAI 的 Jacob Hilton 说,「只是感应头似乎参与其中。」

结果为我们了解 Transformer 提供了一个立足点。他们不仅在获取知识,而且还在学习处理他们根本没有学到的东西的方法。也许通过知道他们这样做,我们可以对它们让我们感到惊讶而不那么惊讶。

相关报道:

https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

0226b560994ddee935b53a7aeb97162b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3 物理层 数据通信基础知识 奈氏准则与香农定理 物理层传输介质 信道复用技术

文章目录1 物理层基本概念2 数据通信的基础知识2.1 典型的数据通信系统模型2.2 与通信相关的几个术语2.3 有关信道的几个概念2.4 基带(baseband)信号和带通(band pass)信号2.5 几种最基本的调制方法2.6 网卡传送信号时的编码格式2.7 信道的极限容量2.8 信道能够通过的频率范围2…

向真实世界应用进军:持续自监督学习的挑战

来源:图灵人工智能编译:OGAI编辑:陈彩娴在 Yann Lecun 等人的推动下,自监督学习成为了深度学习领域最受瞩目的技术之一。互联网世界源源不断产生的数据流无疑是充分发挥自监督学习能力的最佳土壤。然而,将自监督学习应…

人类“超级大脑”背后的规模法则

来源:集智俱乐部作者:郭瑞东 编辑:邓一雪摘要不同动物的大脑具有不同形状和大小。大自然赋予像人类这样脑容量大的灵长类动物比例较大的大脑皮层。然而,比较研究表明,分配给大脑白质连接(大脑区域间长距离沟…

Meta AI 宣布对人脑和语言处理进行长期研究

来源:ScienceAI编辑:绿萝人类的大脑长期以来一直是一个难题——它是如何发展的,它如何继续进化,它被开发和未开发的能力。人工智能 (AI) 和机器学习 (ML) 模型也是如此。正如人类大脑创建的 AI 和 ML 模型日益复杂一样&#xff0c…

10年100亿!“新基石研究员”项目正式发布

来源: 中国科学报文:《中国科学报》记者 赵广立4月30日,《中国科学报》获悉,一项总投入达100亿元、面向基础研究领域的社会资助项目——“新基石研究员项目”正式发布。在国家有关部门的指导下,“新基石研究员项目”由…

代表地球文明精髓的E=mc²,为什么被称为“死亡方程式”

来源:大数据文摘有这样一条方程式,原腾讯副总裁吴军博士说,如果地球毁灭,要在一张名片上写下地球文明的全部精髓,他会写下三个公式,其中就包含这个方程式;搜狐CEO张朝阳专门开了堂线下物理课&am…

北交桑基韬:“超”人的机器学习,非语义特征的得与失

来源:AI科技评论作者:桑基韬整理:维克多人工智能目前最大的“拦路虎”是不可信赖性,以深度学习为基础的算法,在实验室环境下可以达到甚至超过人类的水平,但在很多实际应用场景下的性能无法保证,…

手把手教你搭建一个中式菜谱知识图谱可视化系统

手把手教你搭建一个中式菜谱知识图谱可视化系统中式菜谱知识图谱1、系统功能2、先来看看效果实体间关联关系及实体信息显示不同类型实体开关显示搜索功能展示3、系统实现流程3.1 数据爬取3.2 D3可视化中式菜谱知识图谱 今天分享一个自己从数据爬取到d3可视化的中式菜谱知识图谱…

AI数字人未来十大展望

来源 :商汤智能产业研究院编辑 :刘振航从电影中逼真的CG人物,到能够与我们面对面进行互动的智能服务助手,数字人会经历几级进化?数字人正在从有颜无智的“CG数字模特”,进化为可提高生产力、驱动创新服务的…

知识图谱最新权威综述论文解读:开篇部分

论文地址:http://arxiv.org/abs/2002.00388 这篇综述是数据科学权威 Philip S. Yu 团队对知识图谱领域的最新综述论文,论文从知识图谱的发展历史、知识表示学习、知识获取、知识应用、未来研究方向等方面描述了知识图谱的全局。 首先,咱们先…

耗资52亿美元,历时15年,人类有史以来建造的最复杂机器

来源:世界先进制造技术论坛欧洲大型强子对撞机是现在世界上最大、能量最高的粒子加速器,是一种将质子加速对撞的高能物理设备,英文名称为LHC。LHC是人类迄今建造的最大最复杂的科学设备,它的建设历时15年,耗资52亿美元…

贝叶斯深度学习:一个统一深度学习和概率图模型的框架

来源:AI科技评论 作者:王灏整理:维克多人工智能(AI)的进展显示,通过构建多层的深度网络,利用大量数据进行学习,可以获得性能的显著提升。但这些进展基本上是发生在感知任务中&#…

知识图谱最新权威综述论文解读:知识表示学习部分

知识图谱最新权威综述论文解读:知识表示学习部分知识图谱表示学习1 表示空间1.1 Point-wise空间1.2 复数向量空间​1.3 高斯分布1.4 流形和群2 打分函数2.1 基于距离的打分函数​2.2 语义匹配模型:​3 编码模型3.1 线性/双线性模型3.2 张量分解模型3.3 神…

对知识图谱的告白:斯坦福大学CS520课程介绍

斯坦福大学CS520知识图谱系列课程,从这个课程的编号就足以看出对计算机科学的告白。 相信大家对斯坦福大学的计算机学科公开课一点也不陌生,对很多人来说,面向计算机视觉的CS231n和面向自然语言处理的CS224n几乎成为了入门人工智能领域以及C…

脑计算将何去何从?

来源:内容由半导体行业观察(ID:icbank)编译:nature.摘要类脑计算新技术有望通过完全不同的方式处理信息,能效极高,并能处理我们加速产生的大量非结构化和嘈杂的数据。为了实现这一承诺&#xff…

知识图谱最新权威综述论文解读:知识图谱补全部分

上期我们介绍了2020年知识图谱最新权威综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知识表示学习部分,本期我们将一起学习这篇论文的知识图谱补全部分。 论文地址: https://arxiv.org/pdf/2002.00388.p…

神经元的集体行为:大尺度脑活动的动力学模型

来源:集智俱乐部(https://mp.weixin.qq.com/s/X88lG7rFhIFlpCJ2jVMLtg) 作者:彭崧峻 校对:梁金编辑:邓一雪封面:Sergey Fedotov排版:光影导语 / Introduction大脑由神经元组成&…

知识图谱最新权威综述论文解读:实体发现

上期我们介绍了2020年知识图谱最新权威综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知识图谱补全部分,本期我们将一起学习这篇论文的实体发现部分。 论文地址: https://arxiv.org/pdf/2002.00388.pdf​…

Jurassic-X: 让神经模型学会符号推理

来源:前沿科技解读:Antonio编辑:陈彩娴近期,一家以色列NLP研究机构AI21 Labs开发了一个名叫Jurassic-X的算法系统,它基于该实验室提出来的MRKL(它与miracle谐音)系统。Jurassic-X的前身是对标GP…

知识图谱最新权威综述论文解读:关系抽取

上期我们介绍了2020年知识图谱最新权威综述论文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知识图谱实体发现部分,本期我们将一起学习这篇论文的关系抽取部分。 论文地址: https://arxiv.org/pdf/2002.00388.p…