Transformer 会接管人工智能?

d43752b9f6b529ce755781492a269269.png

来源:ScienceAI

编辑:绿萝

想象一下,你去当地的五金店,在货架上看到一种新的锤子。你听说过这把锤子:它比其他锤子敲得更快、更准确,在过去的几年里,它已经淘汰了许多其他锤子,至少在大多数用途中是这样。

还有更多!通过一些调整——这里有一个附件,那里有一个扭曲——这个工具变成了一把锯,它的切割速度至少和其他任何选择的一样准确。事实上,一些处于工具开发前沿的专家表示,这把锤子可能只是预示着所有工具将融合到一个设备中。

类似的故事正在人工智能工具中上演。这种多功能的新锤子是一种人工神经网络——一种通过对现有数据进行训练来「学习」如何完成某些任务的节点网络——称为 Transformer。它最初旨在处理语言,但最近开始影响其他 AI 领域。

2017 年,Transformer 首次出现在一篇论文中,该论文神秘地宣称「注意力就是你所需要的一切」。在人工智能的其他方法中,系统将首先关注输入数据局部的块,然后构建整体。例如,在语言模型中,附近的单词首先会被组合在一起。相比之下,转换器运行进程,以便输入数据中的每个元素都连接或关注每个其他元素。研究人员将此称为「自我注意」。这意味着一旦开始训练,Transformer 就可以看到整个数据集的痕迹。

240a33e69e57f58d614b5960671534bd.png

论文链接:https://arxiv.org/abs/1706.03762

在 Transformer 出现之前,人工智能语言任务的进展在很大程度上落后于其他领域的发展。「在过去 10 年左右发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说。「所以从某种意义上说,NLP 落后于计算机视觉。Transformer 改变了这一点。」

很快,Transformer 就成为专注于分析和预测文本的单词识别等应用程序的领跑者。它引发了一波工具浪潮,例如 OpenAI 的 Generative Pre-trained Transformer 3 (GPT-3),它可以训练数千亿个单词并生成一致的新文本,智能到令人不安。

Transformer 的成功促使人工智能人群问他们还能做什么。答案现在正在展开,因为研究人员报告说,Transformer 被证明具有惊人的多功能性。在某些视觉任务中,例如图像分类,使用 Transformer 的神经网络比不使用 Transformer 的神经网络变得更快、更准确。其他人工智能领域的新兴工作——比如一次处理多种输入或计划任务——表明 Transformer 可以处理更多。

「在包括计算机视觉在内的机器学习中的许多问题上,Transformer 似乎真的有相当大的变革性。」在慕尼黑的宝马(BMW)从事与自动驾驶汽车相关的计算机视觉工作的 Vladimir Haltakov 说。

就在 10 年前,AI 的不同子领域之间几乎没有共通语言。但 Transformer 的到来表明了融合的可能性。德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:「我认为 Transformer 之所以如此受欢迎,是因为它暗示着全领域通用的潜力。我们有充分的理由想要在整个 AI 任务范围内尝试使用  Transformer」。

从语言到视觉

在「Attention Is All You Need」发布几个月后,扩大 Transformer 的最有希望的举措之一就开始了。

当时在柏林的谷歌研究部门工作的计算机科学家Alexey Dosovitskiy,正在研究计算机视觉,这是一个专注于教计算机如何处理和分类图像的 AI 子领域。与该领域的几乎所有其他人一样,他当时的常用工具卷积神经网络 (CNN) ,该网络多年来推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。

CNN 通过对图像中的像素重复应用过滤器来建立特征识别来工作。正是由于卷积,照片应用程序可以按面孔组织您的图书馆,或者将鳄梨与云区分开来。CNN 被认为是视觉任务必不可少的。

Dosovitskiy 正在研究该领域最大的挑战之一,即扩大 CNN 的规模,以在不增加处理时间的情况下,在代表分辨率越来越高的图像的越来越大的数据集上进行训练。

但随后他看到 Transformer 取代了以前几乎所有与语言相关的人工智能任务的首选工具。「我们显然受到了正在发生的事情的启发,」他说。「他们得到了所有这些惊人的结果。我们开始想知道我们是否可以在视觉上做类似的事情。」 这个想法有一定的意义——毕竟,如果 Transformer 可以处理大数据集的单词,为什么不能处理图片呢?

最终的结果是一个名为 Vision Transformer 或 ViT 的网络,研究人员在 2021 年 5 月的一次会议上展示了该网络。该模型的架构与 2017 年提出的第一个Transformer 的架构几乎相同,只进行了微小的更改,使其能够分析图像而不是文字。「语言往往是离散的,」Rumshisky 说,「所以很多改编必须使图像离散化。」

cf844496a4f60bc681ce21044f2d490b.png

论文链接:https://arxiv.org/abs/2010.11929

ViT 团队知道他们无法完全模仿语言方法,因为每个像素的自注意力在计算时间上会非常昂贵。相反,他们将较大的图像划分为正方形的单元,也就是所谓的词元(token)。词元大小是任意的,因为可以根据原始图像的分辨率变大或变小(默认是每边 16 像素)。但是通过分组处理像素,并对每个像素应用自我关注,ViT 可以快速处理大量训练数据集,输出越来越准确的分类。

Transformer 以超过 90% 的准确率对图像进行分类——比 Dosovitskiy 预期的结果要好得多——在 ImageNet 分类挑战赛(一项开创性的图像识别比赛)中迅速将其推向了榜首。ViT 的成功表明卷积可能不像研究人员认为的那样是计算机视觉的基础。

与 Dosovitskiy 合作开发 ViT 的 Google Brain Zurich 的 Neil Houlsby 说:「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生产品所取代。」他说,这些未来的模型可能是纯粹的 Transformer,或者是为现有模型增加自我关注的方法。

其他结果也支持了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型,在 2022 年初,ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。没有 Transformer 的 CNN,长期的冠军,现在勉强进入前 10 名。

Transformer 的工作原理

ImageNet 结果表明,Transformer 可以与领先的 CNN 竞争。但谷歌的计算机科学家 Maithra Raghu 想知道他们是否像 CNN 一样「看到」图像。神经网络因其难以辨认的黑匣子而臭名昭著,但有一些方法可以窥探内部——例如通过逐层检查网络的输入和输出,以了解训练数据是如何流过的。

她的小组确定了自注意力在算法中导致不同感知方式的方式。归根结底,Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中,你从非常本地化开始,然后慢慢获得全球视野,」Raghu 说。CNN 逐个像素地识别图像,通过构建从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中,即使是第一层信息处理也会在遥远的图像位置之间建立联系(就像语言一样)。如果 CNN 的方法就像从单个像素开始并缩小,那么 Transformer 会慢慢地将整个模糊图像聚焦。

这种差异在语言领域更容易理解,Transformer 最初是在这里构思的。考虑这些句子:「猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓住了尾巴的末端。」 第二句的结构令人困惑:那些「它」指的是什么?只关注「它」周围的单词的 CNN 会遇到困难,但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓人,而松鼠失去了部分尾巴。

9ec3e5d543360b314ca9e37e9645c36b.png

现在,很明显,Transformer 处理图像的方式与卷积网络根本不同,研究人员只会变得更加兴奋。Transformer 在将数据从一维字符串(如句子)转换为二维数组(如图像)方面的多功能性表明,这样的模型可以处理许多其他类型的数据。例如,Wang 认为,Transformer 可能是朝着实现一种神经网络架构的融合迈出的一大步,从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然,要让它真正实现是有局限性的,」他说,「但如果有一种可以通用的模型,你可以将各种数据放在一台机器上,那肯定是非常棒的。」

融合正在发生

现在研究人员希望将 Transformer 应用于一项更艰巨的任务:生成新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文中,Wang 结合了两个 Transformer 模型,试图对图像做同样的事情,这是一个困难得多的问题。当双 Transformer 网络在超过 200,000 名名人的面部上进行训练时,它以中等分辨率合成了新的面部图像。根据初始分数(一种评估神经网络生成的图像的标准方法),发明的名人令人印象深刻,并且至少与 CNN 创建的名人一样令人信服。

3451976812c8af64623a463d8dd6d185.png

论文链接:https://arxiv.org/abs/2010.11929

Wang 认为,Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合,需要能够添加信息以使其看起来合理,」他说。与分类一样,Transformer 方法正在取代卷积网络。

Raghu 和 Wang 看到了 Transformer 在多模态处理中的新用途——一种可以同时处理多种类型数据的模型,如原始图像、视频和语言。「以前做起来比较棘手,」Raghu 说,因为这种孤立的方法,每种类型的数据都有自己的专门模型。但是 Transformer 提出了一种组合多个输入源的方法。「有很多有趣的应用程序,结合了其中一些不同类型的数据和图像。」例如,多模式网络可能会为一个系统提供动力,该系统除了听一个人的声音外,还可以读取一个人的嘴唇。「你可以拥有丰富的语言和图像信息表示,」Raghu 说,「而且比以前更深入。」

5caa43625e56fe214f55ea2294f8b787.png

新兴工作表明了 Transformer 在其他人工智能领域的一系列新用途,包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold,它去年因其快速预测蛋白质结构的能力而成为头条新闻——这项任务过去需要十年的深入分析。

权衡

即使 Transformer 可以帮助联合和改进人工智能工具,新兴技术通常也会付出高昂的代价,这一点也不例外。Transformer 在预训练阶段需要更高的计算能力支出,然后才能击败传统竞争对手的准确性。

那可能是个问题。「人们总是对高分辨率图像越来越感兴趣,」Wang 说。这种训练费用可能是 Transformer 广泛实施的一个缺点。然而,Raghu 认为训练障碍可以通过复杂的过滤器和其他工具轻松克服。

Wang 还指出,尽管视觉 Transformer 已经引发了推动人工智能发展的新努力——包括他自己的——但许多新模型仍然包含了卷积的最佳部分。他说,这意味着未来的模型更有可能同时使用这两种方法,而不是完全放弃 CNN。

它还暗示了一些混合架构的诱人前景,这些架构以当今研究人员无法预测的方式利用 Transformer 的优势。「也许我们不应该急于得出 Transformer 将成为最终模型的结论,」Wang 说。但是,Transformer 越来越有可能至少成为你附近的 AI 商店的任何新超级工具的一部分。

参考内容:https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c7b1994f756420c9644b81f1b41d1773.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nat. Commun.速递:合群者有着相似的大脑活动

来源:集智俱乐部作者:郭瑞东 作者:梁金编辑:邓一雪摘要Convergent processing of the world may be a factor that contributes to social connectedness. We use neuroimaging and network analysis to investigate the associat…

桌面推演技术前沿及发展趋势

来源:蓝海长青智库作者:吕欣、蔡梦思、陈彬,国防科技大学系统工程学院摘要桌面推演通过模拟事件场景及处置过程来提高参演人员的风险感知能力、信息研判能力、指挥决策能力和协同配合能力,被广泛应用于军事作战、应急管理和教育培…

清华大学孙茂松:自然语言处理一瞥,知往鉴今瞻未来

来源:中国人工智能学会作者:孙茂松近日,清华大学人工智能研究院常务副院长孙茂松教授亲手执笔,对自然语言处理的贡献、当前境界与未来挑战进行了深入的探讨。AI科技评论编辑组深有同感,认为此文十分值得一读&#xff0…

前端基础之jQuery

jQuery jQuery的思想,实际上很简单,八个字可以概括:选取元素,对其操作。 元素选取的表达式遵循 CSS 以及 XPath 的标准。选取结果可以是一个或多个,后面的操作针对所有被选取的元素。多个连续的操作可以用“链式”实现…

美国自动驾驶监管里程碑:新法规允许自动驾驶汽车取消方向盘

来源:AI前线编译:刘燕NHTSA 表示,这一新规迈出了“历史性”的一步,确保为配备自动驾驶系统的车辆的乘客保持同样高水平的乘员碰撞保护。这可以视为美国自动驾驶监管的一个里程碑。InfoQ 3 月 11 日消息,根据路透社的报…

DataTable实现分组

有时候我们从数据库中查询出来数据之后,需要按照DataTable的某列进行分组,可以使用下面的方法实现,代码如下: using System; using System.Collections.Generic; using System.Data; using System.Linq; using System.Text; using…

城市大脑的定义与理论基础综述

本文发表于2022年2月下旬的《中国建设信息化》,作者杜青峰 刘锋 任伟阳1 前言2015以来,城市大脑的概念和定义首次提出后。随着城市大脑领域在理论研究和产业实践上的探索和进展,城市大脑已经成为前沿科技领域和智慧城市建设领域的新热点,到2022年&…

线程实现模型

线程实现模型 线程实现模型主要分为:用户级线程模型,内核级线程模型和两级线程模型。他们的区别在于线程与内核线程之间的对应关系。 以下我们将分析这三种线程实现模型的特点: 用户级线程模型 (1)多对一关系 用户级线…

逆生长!小鼠「逆龄疗法」登Nature子刊,有望用于人类

来源:机器学习研究组订阅一种新的「逆龄疗法」在小鼠身上显示出希望的曙光!最近,美国索尔克生物研究所的科学家运用细胞再生疗法,将「山中因子」注入小鼠,通过多组实验证明:仅数个月,小鼠年轻多…

消息中间件那些事--RabbitMQ

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka&#xf…

中国联通李福昌:探索无线连接的未来

来源:C114通信网文:李福昌无线技术在当今社会中发挥着重要的作用,特别是5G商用以来,无线技术的应用从以个人为主扩展到面向生产和社会,逐步践行“5G改变社会”的目标。展望未来,面向6G,无线连接…

听完411头猪的哼哼,他们找到了理解“猪语”的算法 | Scientific Reports

图片来源:Pixabay来源 哥本哈根大学翻译 闭诗林编辑 魏潇我们现在可以解读猪的情绪了。一个国际研究小组利用猪从出生到死亡的生命过程中收集到的数千份录音,首次在其一生各个阶段的大量场景下,将猪的呼噜声转化为了真实的情绪。这项研究由…

弄懂goroutine调度原理

goroutine简介 golang语言作者Rob Pike说,“Goroutine是一个与其他goroutines 并发运行在同一地址空间的Go函数或方法。一个运行的程序由一个或更多个goroutine组成。它与线程、协程、进程等不同。它是一个goroutine“。 goroutine通过通道来通信,而协程…

JVM-类加载原理

写在前面 我们知道我们编写的java代码,会经过编译器编译成字节码文件(class文件),再把字节码文件装载到JVM中,映射到各个内存区域中,我们的程序就可以在内存中运行了。那么字节码文件是怎样装载到JVM中的呢…

2022年斯坦福AI Index公布:中美主导跨国研究,专利、投资金额暴增

来源:学术头条当地时间 3 月 16 日,斯坦福大学以人为本人工智能研究所(StanfordHAI)正式发布了《2022 年人工智能指数报告》(Artificial Intelligence Index Report 2022)。这是该机构发布的第五份年度报告…

中国传感器规模将超7000亿元:2022最全面深入的产业分析

来源:前瞻经济学人整理:动感传感本文整理自前瞻经济学人的传感器产业报告,作为国内领先的咨询机构,前瞻经济学人的研报分析深度和数据丰富程度,都首屈一指。主要有如下几部分内容:•2022年中国传感器行业市…

强化学习教父Richard Sutton新论文探索决策智能体的通用模型:寻找跨学科共性...

来源:人工智能AI技术 论文虽然有些难懂,但或许是一个新的研究方向。强化学习和决策多学科(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,随着时间的推移&#xf…

IO模型(epoll)--详解-01

写在前面 从事服务端开发,少不了要接触网络编程。epoll作为linux下高性能网络服务器的必备技术至关重要,nginx、redis、skynet和大部分游戏服务器都使用到这一多路复用技术。 本文会从网卡接收数据的流程讲起,串联起CPU中断、操作系统进程调度…

一文搞懂MEMS传感器产业链(最全解析!)

来源:传感器专家网本文涵盖了MEMS产业链的所有与流程与知识,力求用最简短的内容——全文不足8000字,让我们知道最全面的MEMS产业链情况,包括如下内容:一、MEMS简介二、MEMS分类三、MEMS 行业发展历程四、国内传感器企业…

IO模型(epoll)--详解-02

写在前面 从事服务端开发,少不了要接触网络编程。epoll作为linux下高性能网络服务器的必备技术至关重要,大部分游戏服务器都使用到这一多路复用技术。文章核心思想是:要让读者清晰明白EPOLL为什么性能好。 四、内核接收网络数据全过程 这一步…