吴恩达:回顾2021,这些大事件影响了AI这一年

23d8ffa123d7bf0f668661226ac86a26.png

来源:AI前线

作者:Andrew Ng

译者:核子可乐,刘燕

12 月 23 日,机器学习大牛吴恩达(Andrew Ng)在其主编的人工智能周讯《The Batch》上发表了最新文章。文章中,吴恩达回顾了 2021 年全球人工智能在多模态、大模型、智能语音生成、Transformer 架构、各国 AI 法律举措等方面的主要进展。

2021 年即将过去。

日前,吴恩达发表了以“赠人玫瑰、手有余香”为主题的圣诞寄语。

随着 2021 年底的临近,你可能正在减少工作为寒假做准备。我很期待能暂时放下工作休息一下,希望你也一样。

十二月有时被称为给予的季节。如果你有空闲时间,想知道如何利用它,我认为我们每个人能做的最好的事情之一,就是思考如何能够帮助别人。

历史学家、哲学家威尔·杜兰特曾说过:“重复的行为造就了我们。”如果你不断地寻求提升他人,这不仅会帮助他们,或许同样重要的是,它也会让你成为一个更好的人。正是你的重复行为定义了你的为人。还有一个经典的研究表明,把钱花在别人身上可能比花在自己身上更让你快乐。

所以,在这个假期,我希望你能休息一段时间。休息、放松、充电!与那些你爱的、但在过去的一年里没有足够的时间联系的人联系。如果时间允许,做一些有意义的事情来帮助别人。可以是在博客文章中留下鼓励的评论、与朋友分享建议或鼓励、在线上论坛上回答一个人工智能问题、或为一个有价值的事业捐款。在与教育和(或)科技相关的慈善机构中,我最喜欢的有维基媒体基金会、可汗学院、电子前沿基金会和 Mozilla 基金会。

吴恩达还谈到了 AI 社区的发展。他表示:AI 社区在规模很小的时候就有很强的合作精神。这感觉就像一群无畏的先锋们在向全世界进军。人们渴望帮助别人,提供建议,彼此鼓励,相互介绍。那些从中获益的人往往无以为报,所以我们通过帮助后继者作为回报。随着人工智能社区的发展,我希望保持这种精神。我承诺将继续努力建设人工智能社区。希望你也可以!

我也希望你们能考虑各种方式,无论大小,向人工智能社区以外的人伸出援手。世界上还有很多地方没有先进的技术。我们的决定影响着数十亿美元和数十亿人的生命。这给了我们一个在世界上行善的特殊机会。

吴恩达回顾了 2021 年全球人工智能的进展并展望了 2022 年以及之后 AI 技术的发展前景。

回顾 2021 年

过去一年以来,整个世界都在跟极端天气、经济通胀、供应链中断以及 COVID-19 病毒作斗争。

在科技领域,远程办公与线上会议贯穿了这整整一年。AI 社区则继续努力弥合整个世界,推进机器学习发展,同时加强其造福各行各业的能力。

这一次,我们希望重点展望 2022 年及之后 AI 技术的发展前景。

多模态 AI 的起飞

虽然 GPT-3 和 EfficientNet 等单独针对文本及图像等任务的深度学习模型备受瞩目,但这一年中最令人印象深刻的还是,AI 模型在发现许可证与图像间关系中取得了进步。

背景信息

OpenAI 通过 CLIP(实现图像与文本匹配)与 Dall·E(根据输入文本生成对应图像)开启了多模式学习的开端;DeepMind 的 Perceiver IO 则着手对文本、图像、视频及点云进行分类;斯坦福大学的 ConVIRT 尝试为医学 X 射线影像添加文本标签。

重要标杆

虽然这些新的多模式系统大多处于实验阶段,但也已经在实际应用中取得突破。

  • 开源社区将 CLIP 与生成对抗网络(GAN)相结合,开发出引人注目的数字艺术作品。艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗作品《忽必烈大汗》为输入,生成了充满迷幻色彩的“Sinuous Rills”。

  • Facebook 表示其多模式仇恨言论检测器能够标记并删除掉社交网络上 97% 的辱骂及有害内容。该系统能够根据文本、图像及视频等 10 种数据类型将模因与其他图像 - 文本对准确划分为“良性”或“有害”。

  • 谷歌表示已经在搜索引擎中添加了多模式(及多语言)功能。其多任务统一模型能够返回文本、音频、图像及视频链接,用以响应由 75 种语言提交的各类查询。

新闻背后

今年的多模态发展态势源自几十年来坚实的研究基础。

早在 1989 年,约翰霍普金斯大学和加州大学圣迭戈分校的研究人员就开发出一种基于元音的分类系统,用以识别人类语音中的音频与视觉数据。

接下来的二十年间,更多研究小组先后尝试过数字视频库索引及基于证据 / 视觉数据的人类情绪分类等多模式应用方案。

发展现状

图像与文本如此复杂,因此研究人员在很长一段时间内只能专注于其中一种。在此期间,他们开发出多种不同技术成果。

但过去十年中,计算机视觉与自然语言处理已经在神经网络中得到有效融合,也让二者的最终合璧成为可能 —— 甚至音频集成也获得了参与的空间。

万亿级参数

过去一年,模型经历了从大到更大的发展历程。

背景信息:

谷歌用 Switch Transformer 拉开了 2021 年的序幕,这是人类历史上首个拥有万亿级参数的模型,总量达 1.6 万亿。

北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0。

重要标杆

单纯拉高模型参数并没什么特别。但随着处理能力和数据源的增长,深度学习开始真正确立起“越大越好”的发展原则。

财力雄厚的 AI 厂商正以狂热的速度堆积参数,既要提高性能、又要展示“肌肉”。特别是在语言模型方面,互联网厂商为无监督和半监督预训练提供了大量未经标记的数据。

2018 年以来,这场参数层面的军备竞赛已经从 BERT(1.1 亿)、GPT-2(15 亿)、MegatronLM(83 亿)、Turing-NLG(170 亿)、GPT-3(1750 亿)一路走来,如今终于迈过了万亿级大关。

挺好,但是……

模型的膨胀路线也带来了新的挑战。愈发庞大的模型令开发者们面临四大严酷障碍。

  • 数据:大型模型需要吸纳大量数据,但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材。例如,研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集,之前已被用于训练 30 多种大型语言模型;但其中包含某些宗教偏见,因为内容主要讨论基督教和伊斯兰教义,对其他宗教几无涉及。

AI 社区意识到数据质量将直接决定模型质量,但却一直未能就大规模、高质量数据集的有效编译方法达成共识。

  • 速度:如今的硬件仍难以处理大体量模型,当数据反复出入内存时,模型的训练和推理速度都会受到严重影响。

为了降低延迟,Switch Transformer 背后的谷歌团队开发出一种方法,能够让各个 token 只处理模型各层中的一个子集。他们的最佳模型预测速度甚至比参数量只有其三十分之一的传统模型还快 66%。

另外,微软开发的 DeepSpeed 库则选择了并行处理数据、各层及层组的路线,并通过在 CPU 和 GPU 间划分任务以减少处理冗余。

  • 能耗:训练如此庞大的网络会消耗大量电能。2019 年的一项研究发现,在 8 个英伟达 P100 GPU 上训练一个包含 2 亿参数的 transformer 模型所造成的碳排放(以化石燃料发电计算),相当于一辆普通汽车五年的行驶总排放量。

当然,Cerebras 的 WSE-2 及谷歌最新 TPU 等新一代 AI 加速型芯片有望降低排放,而风能、太阳能及其他清洁能源的供应也在同步增加。相信 AI 研究对环境的破坏将愈发轻微。

  • 模型交付:这些庞大的模型很难在消费级或边缘设备上运行,所以真正的规模部署只能通过互联网访问或精简版本实现——不过二者目前各有问题。

发展现状

自然语言建模排行榜中的主力仍然是千亿级模型,毕竟万亿级参数的处理难度实在太高。

但可以肯定,未来几年会有更多万亿级俱乐部成员加入进来,而且这种趋势仍将持续。有传闻称,OpenAI 规划中的 GPT-3 继任者将包含更加恐怖的百万亿级参数。

AI 生成音频内容渐成“主流化”

音乐家和电影制作人们,已经习惯于使用 AI 支持型音频制作工具。

背景信息

专业媒体制作人们会使用神经网络生成新的声音并修改旧有声音。配音演员们自然对此大为不满。

重要标杆

生成模型能够从现有录音中学习特征,进而创造出令人信服的复制品。也有些制作人直接使用这项技术原创声音或模仿现有声音。

  • 美国初创公司 Modulate 使用生成对抗网络为用户实时合成新的语音,使得游戏玩家和语聊用户能够建立起自己的虚拟角色;也有跨性别者用它调整自己的声音,借此获得与性别身份相一致的音色。

  • Sonantic 是一家专门从事声音合成的初创公司。演员 Val Kilmer 于 2015 年因咽喉手术而丧失了大部分发声能力,该公司则利用原有素材为他专门创造了一种音色。

  • 电影制作人 Morgan Neville 聘用一家软件公司,在自己的纪录片《流浪者: 一部关于安东尼·波登的电影》中重现了已故旅游节目主持人波登的声音。但此举引起了波登遗孀的愤怒,她表示自己并未许可这种行为。

挺好,但是……

争议不止这一例。

配音演员们也担心这项技术会威胁到自己的生计。2015 年年度游戏《巫师 3:狂猎》的粉丝们甚至在同人 Mod 版本中用这项技术重现了原配音演员们的声音。

新闻背后

最近出现的音频生成主流化倾向,完全是早期研究成果的自然延续。

  • OpenAI 的 Jukebox 就使用 120 万首歌曲进行训练,可利用自动编码器、转换器及解码器管道进行全实时录音生成,风格涵盖从猫王到艾米纳姆等多位歌手。

  • 2019 年,某匿名 AI 开发者设计出一种技术,允许用户在短短 15 秒内利用文本行重现动画及视频游戏角色的声音。

发展现状

生成音频及生成视频不仅让媒体制作人多了一种修复并增强归档素材的能力,同时也让他们能够从零开始创造新的、真假难辨的素材。

但由此引发的道德与法律问题也在增加。如果配音演员被 AI 彻底取代,他们的损失该由谁承担?将已故者的声音在商业化作品中重现涉及哪些所有权纠纷?能不能利用 AI 为已故歌手推出新专辑?这么做对吗?

一种架构,驾驭一切

Transformer 架构正在快速拓展自己的影响范围。

背景信息

Transformers 架构最初专为自然语言处理所开发,但目前已经成为深度学习领域的“万金油”。2021 年,人们已经在用它发现药物、识别语音和图像等。

重要标杆

Transformers 已经用实际行动证明自己在视觉任务、地震预测、蛋白质分类与合成等领域的优异表现。

过去一年以来,研究人员开始将其推向更广阔的新领域。

  • TransGAN 是一套生成对抗网络,结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。

  • Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列,而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络,能够在更短时间内分析更长的视频片段,因此能耗也控制在更低水平。

  • Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2,之后冻结了其 self-attention 与 feed-forward 层。在此基础上,他们可以针对不同用例进行模型微调,包括数学、逻辑问题及计算机视觉等。

  • DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波,人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。

新闻背后

Transformer 于 2017 年首次亮相,之后迅速改变了语言处理模型的设计思路。其 self-attention 机制能够跟踪序列中各元素与其他元素间的关系,不仅可用于分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。

基于 transformer 的大型语言模型已经建立起新的客观标准,包括在大型未标记语料库上进行模型预训练,利用有限数量的标记示例针对特定任务进行微调等。

Transformer 架构良好的普适性,可能预示着未来我们将创造出能解决多领域多问题的 AI 模型。

发展现状

在深度学习的发展过程中,有几个概念曾经迅速普及:ReLU 激活函数、Adam 优化器、attention 注意力机制,再加上现在的 transformer。

过去一年的发展证明,这种架构确实具有旺盛的生命力。

各国政府出台人工智能相关法律

各国政府纷纷制定新的法律和提案,希望控制 AI 自动化对现代社会的影响。

背景信息

随着 AI 对隐私、公平性、安全性及国际竞争关系带来的潜在影响,各国政府也开始加大对 AI 的监管力度。

重要标杆

AI 相关法律往往反映出各国在政治秩序中的价值判断,包括如何在社会公平与个人自由之间求取平衡。

  • 欧盟起草了基于风险类别的机器学习应用禁止或限制条例。实时人脸识别与社会信用系统被明令禁止;对于重要基础设施的控制、执法协助及生物识别技术等应用方向则需要提交详细的说明文件,证明 AI 方案安全可靠并持续接受人工监督。

这项规则草案于今年 4 月发布,目前仍在立法流程之内,预计未来 12 个月内仍无法落地。

  • 从明年开始,中国互联网监管机构将强制对可能破坏社会公序良俗的 AI 系统与推荐算法执行监督。打击的目标包括传播虚假信息、引导成瘾行为及危害国家安全的各类系统。企业在部署任何可能左右公众情绪的算法之前必须获得批准,违规算法一律不得上线。

  • 美国政府提出一项 AI 权利法案,用以保护公民免受可能侵犯隐私及公民权利的系统的影响。政府将在明年 1 月 15 日前持续为提案收集公众意见。在联邦以下,多个州及市一级政府开始限制人脸识别系统。纽约市通过一项法律,要求对招聘算法进行偏见审计。

  • 联合国民权高级专员呼吁各成员国暂停 AI 的某些用途,包括可能侵犯人权、限制民众获取基本服务、以及滥用私人数据的情形。

新闻背后

AI 社区正在逐步走向监管层面的共识。

最近对 534 位机器学习研究人员进行的一项调查发现,68% 的受访者认为模型部署确实应该重视可信度与可靠性。受访者们对于欧盟及联合国等国际机构的信任度,也普遍高于对各国政府的信任度。

发展现状

在中国以外,大部分 AI 相关法规仍处于审查阶段。但从目前的提案来看,AI 从业者必须为政府全面介入的必然前景做好准备。

原文链接:

https://read.deeplearning.ai/the-batch/issue-123/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

dfdbd2a4a211c51773c9a0d4ebb5be25.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482940.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络学习笔记-1.1.4-时延、 时延带宽积、RTT和利用率

计算机网络-2019 王道考研 计算机网络-1.1.4-时延、 时延带宽积、RTT和利用率 文章目录4-时延、 时延带宽积、RTT和利用率4.1时延--》我得小饼干你怎么还没来?4.2时延带宽积--》小饼干?小浣熊?好多好多2234.3往返时延RTT--》草(一…

2022年十大AI预测

来源:福布斯编辑:蒲蒲1 语言AI将成为核心,与其他类别的AI相比,更多的初创公司将在NLP(自然语言处理)领域获得资金。语言是人类最重要的发明。与其他属性相比,它是人类智力的决定性标志。语言…

AI 真的能够理解人类语言吗?

来源:CSDN(ID:CSDNnews)作者:Melanie Mitchell译者:弯月2011年,IBM 的人工智能系统沃森参加综艺节目《危险边缘》,并获得了冠军,当时他们宣称:“沃森能够理解…

计算机网络学习笔记-1.1.5-分层结构、协议、接口、服务

计算机网络-2019 王道考研 计算机网络-1.1.5-分层结构、协议、接口、服务 文章目录5-分层结构、协议、接口、服务5.1分层结构5.1.1为什么要分层?5.2怎么分层呢?--》论千层饼的做法?5.2.1正式认识下,我叫分层结构,协议接…

操作系统学习笔记-2.1.1.进程的定义、组成、组织方式、特征

操作系统学习笔记-2019 王道考研 操作系统-2.1.1.进程的定义、组成、组织方式、特征 文章目录2.1.1.进程的定义、组成、组织方式、特征1.1知识概览1.2进程的定义1.3进程的组成1.4进程的组织1.5进程的特征1.6小结2.1.1.进程的定义、组成、组织方式、特征 1.1知识概览 1.2进程的…

向人类再进一步|MIT×UMich探索可以理解物体空间关系的人工智能

研究人员开发的框架可以根据物体空间关系的文本描述生成场景图像。来源:AI科技评论作者:莓酊编辑:青暮人类在描述场景时,经常描述物体之间的空间关系。生物视觉识别涉及自上而下通路和自下而上通路的交互,而深度神经网…

​人工智能和机器学习中数据集的 3 个大问题

来源:ScienceAI编辑:绿萝数据集为 AI 模型提供燃料,例如汽油(或电力)为汽车提供燃料。无论他们的任务是生成文本、识别对象还是预测公司的股价,人工智能系统都通过筛选无数示例来识别数据中的模式来「学习」…

操作系统学习笔记-2.1. 2进程的状态与转换

操作系统学习笔记-2019 王道考研 操作系统-2.1. 2进程的状态与转换 文章目录2进程的状态与转换2.1知识概览2.2进程的状态-三种基本状态2.3进程的状态-另外两种状态2.4进程状态的转换2.5思维导图2进程的状态与转换 2.1知识概览 2.2进程的状态-三种基本状态 2.3进程的状态-另外两…

热力学第二定律中的悖论 | 集智百科

来源 :集智百科目录一、起源二、时间之箭三、动力系统四、波动定理五、大爆炸六、编者推荐七、百科项目志愿者招募洛斯密特悖论,也被称为可逆性悖论,不可逆性悖论,或者说是一种反对意见,它认为不可能从时间对称的动力学中推导出一…

操作系统学习笔记-2.1.3进程控制

操作系统学习笔记-2019 王道考研 操作系统-2.1.3进程控制 文章目录3.进程控制3.1知识概览3.2 基本概念3.2.1什么是进程控制?3.2.2如何实现进程控制?3.3进程控制相关的原语3.4思维导图3.进程控制 3.1知识概览 3.2 基本概念 3.2.1什么是进程控制&#xf…

消息队列---消息模型及使用场景

消息队列 消息对列是一个存放消息的容器,当我们需要消息的时候就从消息队列中取出消息使用。消息队列是分布式系统中重要的组件,使用消息队列的目的是为了通过异步处理提高系统的性能和削峰值,降低系统的耦合性。目前使用较多的消息队列有Act…

谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」

来源:新智元编辑:David如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?这是人工智能科学家几十年来一直争论不休的谜题。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真…

操作系统学习笔记-2.1.4进程通信

操作系统学习笔记-2019 王道考研 操作系统-2.1.4进程通信 文章目录4进程通信4.1知识总览4.2前置知识:什么是进程通信?4.3共享存储4.4 管道通信4.5消息传递4.6小结4进程通信 4.1知识总览 4.2前置知识:什么是进程通信? 4.3共享存储…

滴水课后作业(1-5)

滴水2015-01-12 1、231 成立吗?说明理由。 解题:上面式子由 3个符号组成,那么起码得用3进制以上的进制表示 三进制:2(0),3(1),1(2)   012不成立…

李德毅院士《探索新一代人工智能产业发展》

来源:AI城市智库中国工程院院士、CAAI名誉理事长、主线科技首席科学家李德毅作为大会嘉宾登台发表重磅演讲:《探索新一代人工智能产业发展》,就新一代人工智能的发展历史、产业现状、突破核心以及智能时代的中国方案发表了精彩观点。以下为李…

操作系统学习笔记-2.1.5线程概念和多线程模型

操作系统学习笔记-2019 王道考研 操作系统-2.1.5线程概念和多线程模型 文章目录5线程概念和多线程模型5.1知识概览5.2 什么是线程?为什么要引入线程?5.3引入线程及之后,有什么变化?5.4线程的属性5.5线程的实现方式5.6多线程模型5.…

函数式编程让你忘记设计模式

本文是一篇《Java 8实战》的阅读笔记,阅读大约需要5分钟。 有点标题党,但是这确实是我最近使用Lambda表达式的感受。设计模式是过去的一些好的经验和套路的总结,但是好的语言特性可以让开发者不去考虑这些设计模式。面向对象常见的设计模式有…

25年,100亿美元!人类「第二只眼」韦伯望远镜升空,寻找宇宙开天辟地那束光...

来源:新智元编辑:桃子 小咸鱼昨晚,历时25年研发,100亿美金打造的詹姆斯韦伯太空望远镜终于升空!它将成为人类的「第二只眼」,奔向离地球150万公里外的地方,不仅为了仰望星空,更是为了…

计算机网络学习笔记-1.2.2OSI参考模型(1)

计算机网络-2019 王道考研 计算机网络-1.2.2OSI参考模型(1) 文章目录2.OSI参考模型(1)2.1OSI参考模型(1)2.2ISO/OSI参考模型2.3ISO/OSI参考模型解释通信过程2.OSI参考模型(1) 2.1OS…

计算机网络学习笔记-1.2.3OSI参考模型(2)

计算机网络-[2019 王道考研 计算机网络-1.2.3OSI参考模型(2)(https://www.bilibili.com/video/av70228743?t6&p7) 文章目录3.OSI参考模型(2)3.1应用层3.2表示层3.3会话层3.4传输层3.5网络层3.6数据链路层3.7物理层3.8思维导图…