DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?

e4694b4e5c4561c95382a0cbdb81ed0d.png

来源:数据实战派

作者:Ben Dickson

这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章。

对于已经精通围棋、星际争霸 2 和其他游戏的深度强化学习模型来说,人工智能系统的主要挑战之一是它们无法将其能力泛化到训练领域之外。这种限制使得将这些系统应用到现实世界中变得非常困难,在现实世界中,情况比训练 AI 模型的环境复杂得多且不可预测。

最近,DeepMind 人工智能研究实验室的科学家根据一篇新的“开放式学习”倡议的博客文章中,声称已经采取了“初步来训练一个能够在不需要人类交互数据的情况下,玩许多不同游戏的代理”。他们的新项目包括一个具有真实动态的 3D 环境和可以学习解决各种挑战的深度强化学习代理。

根据 DeepMind 的人工智能研究人员的说法,新系统是“创建更通用的代理迈出的重要一步,该代理具有在不断变化的环境中快速适应的灵活性。”

该论文的发现表明,在将强化学习应用于复杂问题方面取得了一些令人印象深刻的进步。但它们也提醒人们,当前的系统距离实现人工智能社区几十年来直梦寐以求的通用智能能力还有多远。

711c13c432217774d458db27c4767fe9.png

深度强化学习的脆弱性

eee18bb03e7480ac50c6f123d0fb1c2b.png

强化学习的主要优势在于可以在执行动作和获得反馈来发展行为的能力,类似于人类和动物通过与环境互动来学习的方式类似。一些科学家将强化学习描述为“首个智能计算理论”。

强化学习和深度神经网络的结合,称为深度强化学习,是包括 DeepMind 著名的 AlphaGo 和 AlphaStar 模型在内的许多强化 AI 的核心。在这两种情况下,人工智能系统都能够在各自的比赛中击败人类世界冠军。

但强化学习系统的灵活性不足也是众所周知的缺陷。例如,可以在专家级别玩星际争霸 2 的强化学习模型将无法在任何能力级别玩具有类似机制的游戏(例如,魔兽争霸 3)。即使对原始游戏稍有改动,也会大大降低 AI 模型的性能。

“这些智能体通常被限制只能玩他们接受过训练的游戏,虽然游戏的布局、初始条件、对手可能会变化,智能体必须满足的目标在训练和测试之间保持不变。偏离这一点可能会导致代理的灾难性失败,”DeepMind 的研究人员在一篇论文中写道,该论文提供了有关其开放式学习的全部细节。另一方面,人类非常擅长跨领域转移知识。

ff857a8712a489a155e5f77bbc00b173.png

XLand 环境

303e61c8c48472123db24a4f52f832f4.png

DeepMind 新项目的目标是创建“一个人工智能,其行为的概括超出了它所训练的游戏集。”

为此,该团队创建了 XLand,这是一个可以生成由静态拓扑和可移动对象组成的 3D 环境的引擎。游戏引擎模拟了刚体物理学,并允许玩家以各种方式使用对象(例如,创建斜坡、块路径等)。

XLand 是一个丰富的环境,可以在其中训练代理执行几乎无限数量的任务。XLand 的主要优势之一是能够使用程序化规则自动生成大量环境和挑战来训练 AI 代理。这解决了机器学习系统的主要挑战之一,该系统通常需要大量手动策划的训练数据。

根据博客文章,研究人员“在 XLand 中创建了数十亿个任务,跨越不同的游戏、世界和玩家。”这些游戏包括非常简单的目标,例如在更复杂的设置中寻找对象,其中 AI 代理会权衡不同奖励的收益和权衡。一些游戏包括涉及多个代理的合作或竞争元素。

cc345ac7755f3aa0c99ac2a866b10b5a.png

深度强化学习

DeepMind 使用深度强化学习和一些聪明的技巧来创建可以在 XLand 环境中茁壮成长的 AI 代理。

每个代理的强化学习模型接收世界的第一人称视角、代理的物理状态(例如,是否持有对象)及其当前目标。每个代理微调其策略神经网络的参数,以最大限度地提高当前任务的回报。神经网络架构包含一个注意力机制,以确保代理可以平衡完成主要目标所需的子目标的优化。

一旦代理掌握了当前的挑战,计算任务生成器就会为代理创建一个新的挑战。每个新任务都是根据代理的训练历史生成的,并有助于在各种挑战中分配代理的技能。 

DeepMind 还使用其庞大的计算资源对大量代理进行并行培训,并在不同的代理之间传输学习参数,以提高强化学习系统的一般能力。

b650a0f0bcae362bdfb1495a10a1fc81.png

DEEPMind使用多步骤和基于人群的机制来培训许多强化学习代理

强化学习代理的性能是根据它们完成未经训练的各种任务的一般能力来评估的。一些测试任务包括众所周知的挑战,例如“夺旗”和“捉迷藏”。

根据 DeepMind 的说法,每个代理在 XLand 的 4,000 个独特世界中玩了大约 700,000 个独特的游戏,并在 340 万个独特任务中经历了 2000 亿个训练步骤(在论文中,研究人员写道,1 亿个步骤相当于大约 30 分钟的训练) .

AI 研究人员写道:“此时,我们的代理已经能够参与每一个程序生成的评估任务,除了少数甚至对人类来说都是不可能的。” “而且我们看到的结果清楚地展示了整个任务空间的一般零样本行为。”

零样本机器学习模型可以解决训练数据集中不存在的问题。在 XLand 等复杂空间中,零样本学习可能意味着代理已经获得了有关其环境的基本知识,而不是记住特定任务和环境中的图像帧序列。

当研究人员试图为新任务调整它们时,强化学习代理进一步表现出广义学习的迹象。根据他们的发现,对新任务进行 30 分钟的微调,足以在使用新方法训练的强化学习代理中产生令人印象深刻的改进。相比之下,在相同时间内从头开始训练的代理在大多数任务上的性能接近于零。

fce19eaa6824cc2a6c2d7762311d9ce9.png

高级行为

根据 DeepMind 的说法,强化学习代理表现出“启发式行为”的出现,例如工具使用、团队合作和多步计划。如果得到证实,这可能是一个重要的里程碑。深度学习系统经常因学习统计相关性而不是因果关系而受到批评。如果神经网络能够开发出高级概念,例如使用对象来创建斜坡或导致遮挡,它可能会对机器人和自动驾驶汽车等领域产生重大影响,而这些领域目前深度学习正在苦苦挣扎。

但这些都是重要的假设,DeepMind 的研究人员对就他们的发现得出结论持谨慎态度。他们在博文中写道:“鉴于环境的性质,很难确定意图——我们看到的行为经常看起来是偶然的,但我们仍然看到它们始终如一地发生。”

但是他们相信他们的强化学习代理“了解他们身体的基本知识和时间的流逝,并且他们了解他们遇到的游戏的高级结构。”

这种基本的自学技能是人工智能社区备受追捧的另一个目标。

64f21311e38359ef1ad40775e473d3c7.png

智力理论

fddcad7ccf45ebb31dfdd34c6d02916b.png

DeepMind 的一些顶尖科学家最近发表了一篇论文,其中他们假设单一奖励和强化学习足以最终实现通用人工智能 (AGI)。科学家们认为,一个具有正确激励机制的智能代理可以开发各种能力,例如感知和自然语言理解。

尽管 DeepMind 的新方法仍然需要在多个工程奖励上训练强化学习代理,但这符合他们通过强化学习实现 AGI 的一般观点。

Pathmind 的首席执行官 Chris Nicholson 告诉 TechTalks:“DeepMind 在这篇论文中表明,单个 RL 代理可以开发智能以实现多个目标,而不仅仅是一个目标,” “它在完成一件事时学到的技能可以推广到其他目标。这与人类智能的应用方式非常相似。例如,我们学习抓取和操纵物体,这是实现从敲锤子到铺床的目标的基础。”

Nicholson 还认为,该论文发现的其他方面暗示了通向智能的进展。“家长们会认识到,开放式探索正是他们的孩子学会在世界中穿行的方式。他们从柜子里拿出一些东西,然后把它放回去。他们发明了自己的小目标——这对成年人来说可能毫无意义——然后他们掌握了这些目标,”他说。“DeepMind 正在以编程方式为其代理在这个世界上设定目标,而这些代理正在学习如何一一掌握它们。”

Nicholson 说,强化学习代理也显示出在他们自己的虚拟世界中开发具身智能的迹象,就像人类一样。“这又一次表明,人们学习穿越和操纵的丰富而可塑的环境有利于通用智能的出现,智能的生物学和物理类比可以指导人工智能的进一步工作,”他说。

南加州大学计算机科学副教授 Sathyanaraya Raghavachary 对 DeepMind 论文中的主张持怀疑态度,尤其是关于本体感觉、时间意识以及对目标和环境的高级理解的结论。

“即使我们人类也没有完全意识到我们的身体,更不用说那些 VR 代理了,” Raghavachary 在对 TechTalks 的评论中说,并补充说,对身体的感知需要一个集成的大脑,该大脑被共同设计以实现合适的身体意识和空间位置。“与时间的流逝一样——这也需要一个对过去有记忆的大脑,以及与过去相关的时间感。他们(论文作者)的意思可能与代理跟踪由他们的行为(例如,由于移动紫色金字塔)导致的环境中的渐进变化,底层物理模拟器将产生的状态变化有关。

Raghavachary 还指出,如果代理能够理解他们任务的高层结构,他们就不需要 2000 亿步的模拟训练来达到最佳结果。

“底层架构缺乏实现他们在结论中指出的这三件事(身体意识、时间流逝、理解高级任务结构)所需的东西,”他说。“总的来说,XLand 只是‘大同小异’。”

74738f57d1081dff4adf7ea86f981705.png

模拟与现实世界的差距

简而言之,这篇论文证明,如果你能够创建一个足够复杂的环境,设计正确的强化学习架构,并让你的模型获得足够的经验(并且有很多钱可以花在计算资源上),你将能够泛化到同一环境中的各种任务。这基本上就是自然进化赋予人类和动物智能的方式。

事实上,DeepMind 已经对 AlphaZero 做了类似的事情,AlphaZero 是一种强化学习模型,能够掌握多个两人回合制游戏。XLand 实验通过添加零样本学习元素将相同的概念扩展到更高的水平。

但是,虽然我认为 XLand 训练的代理的经验最终会转移到现实世界的应用中,例如机器人和自动驾驶汽车,但我认为这不会是一个突破。您仍然需要做出妥协(例如创建人为限制以降低现实世界的复杂性)或创建人为增强(例如将先验知识或额外传感器注入机器学习模型)。

DeepMind 的强化学习代理可能已经成为虚拟 XLand 的主人。但是他们的模拟世界甚至没有真实世界的一小部分复杂性。在很长一段时间内,这种差距仍将是一个挑战。

参考链接:

https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

029dc6844d356489c997c6223cb71577.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的常用操作——vim和vi

1.vi和vim有什么区别? \qquadvi和vim都是文本编辑器,vim是从vi发展过来的。 2.vim的三种操作模式 (1)命令模式: \qquad打开文件之后,默认进入命令模式。 vim a.txt #打开a.txt文本,此时处于命…

第十届蓝桥杯 等差数列(Python)

题目: 思路: 1、给数组排序,求出两两之间的差值即公差,如果差值为0,直接返回n,否则进入第二步; 2、给差值数组排序,求出两两之间的最大公因数即公差 代码: def gcd(…

两种实现简单cp的方法

第一种&#xff1a;标准IO #include <stdio.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> #define N 32 void mycp(const char * sour,const char * des); int main(int argc, const char *argv[])…

linux的常用操作——gcc

1.什么是gcc \qquadgcc是linux中的一款编译源代码的文本编译器 2.编译过程 \qquad比如对hello.c文件进行编译&#xff0c; \qquad首先&#xff0c;预处理器cpp对hello.c进行处理&#xff0c;cpp会把头文件展开&#xff0c;宏替换&#xff0c;注释去掉&#xff0c;经过cpp处理后…

LeetCode 678. 有效的括号字符串

传送门&#xff1a;https://leetcode-cn.com/problems/valid-parenthesis-string 题目描述&#xff1a; 给定一个只包含三种字符的字符串&#xff1a;&#xff08; &#xff0c;&#xff09; 和 *&#xff0c;写一个函数来检验这个字符串是否为有效字符串。有效字符串具有如下…

汪卫华院士:无序中找有序 复杂中寻规律

来源&#xff1a;中国科学报原文出处&#xff1a;《中国科学报》 (2021-10-11 第4版 综合)作者&#xff1a;汪卫华&#xff08;作者系中国科学院院士、松山湖材料实验室主任&#xff09;冰河时代为什么会周期性重复出现&#xff1f;是否有关于混沌和湍流系统更一般的数学描述&a…

霍金 | 哥德尔和物理学的终结

来源&#xff1a;爱思想转自&#xff1a;人机与认知实验室 作者&#xff1a;史蒂芬霍金 英国剑桥大学著名物理学家&#xff0c;现代最伟大的物理学家之一译者&#xff1a;凌高【感谢陈禹老师&#xff1a;"冯诺依曼说过&#xff0c;没有明确的概念&#xff0c;量得分析是毫…

BUAA_OO_第二单元作业总结

程序设计策略 第一次作业 第一次作业实现的是FAFS式傻瓜调度电梯&#xff0c;由于是第一次接触多线程&#xff0c;难度不是很大。在我的设计里&#xff0c;我借鉴了生产者消费者模式&#xff0c;设计了一个输入线程和一个电梯线程&#xff0c;控制器的设计使用了单例模式&#…

linux的常用操作——静态库

1.静态库的制作 1.1静态库的命名 \qquad静态库一律使用lib打头&#xff0c;静态库名为&#xff1a;lib静态库的名字.a。比如&#xff1a;libmylibrary.a&#xff0c;这里面lib和.a是必须要有的。使用nm命令可以查看静态库。 nm 静态库名1.2静态库的制作步骤 \qquad第一步&…

蓝桥杯 回文日期

模拟 n int(input())def check(x):m int(x[:2])d int(x[2:4])x int(x)if 1<m<12:if m 2:if (x%40 and x%100!0) or x%4000:if d<29:return Trueelse:return Falseelse: if d<28:return Trueelse:return Falseif m in [1,3,5,7,8,10,12]:if d<31:return Tr…

因果推断研究获2021诺贝尔经济学奖

来源&#xff1a;集智俱乐部 北京时间2021 年 10 月 11 日 17 时许&#xff0c;2021 年诺贝尔经济学奖&#xff0c;授予了三位经济学家——David Card因为对“对劳动经济学的实证研究贡献”而获得一半奖金&#xff0c;Joshua D. Angrist和Guido W. Imbens因“对因果关系分析的方…

Leetcode 82. Remove Duplicates from Sorted List II

利用一个虚拟头节点,和维护一个前置节点. # Definition for singly-linked list. # class ListNode: # def __init__(self, x): # self.val x # self.next Noneclass Solution:def deleteDuplicates(self, head: ListNode) -> ListNode:if not head o…

【计算机网络复习】1.1.1 概念、组成、功能和分类

概念、组成、功能和分类二、功能三、组成四、分类计算机网络&#xff1a;是一个将分散的、具有独立功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功能完善的软件实现资源共享和信息传递的系统。 计算机网络是互连的、自治的计算机集合。 互连 — 互…

linux的常用操作——共享库

1.共享库的命名规则 \qquad共享库&#xff0c;即动态库。库名&#xff1a; lib库名.so 2.共享库的制作 2.1生成与位置无关的.o文件 gcc -fpic -c filename.c -I 头文件路径2.2生成共享库 gcc -shared -o 共享库名 要打包的.o文件 -I 头文件路径2.3生成可执行文件 gcc file…

因果表征学习最新综述:连接因果科学和机器学习的桥梁

来源&#xff1a;集智俱乐部作者&#xff1a;蔡心宇审校&#xff1a;龚鹤扬、陆超超编辑&#xff1a;邓一雪论文题目&#xff1a;Towards Causal Representation Learning论文地址&#xff1a;https://arxiv.org/abs/2102.11107这篇名为Towards Causal Representation Learning…

【计算机网络复习】1.1.2 标准化工作及相关组织

标准化工作及相关组织一、标准化工作二、标准化工作的相关组织一、标准化工作 标准 法定标准&#xff1a;由权威机构指定的正式的、合法的标准&#xff08;如OSI&#xff09;事实标准&#xff1a;某些公司的产品在竞争中占据了主流&#xff0c;时间长了&#xff0c;这些产品中…

推荐几个练习听力不错的国外网站

http://www.uptoten.com/ 是美国针对学前教育&#xff08;0到10岁&#xff09;的听力网站&#xff0c;主题非常丰富&#xff0c;拥有大量英文歌曲、卡通片、绘画、游戏等栏目&#xff0c;启发儿童在艺术、健康、语言、社会、科学多元思维能力&#xff0c;在好玩又有趣的氛围下&…

linux的常用操作——程序调试gdb

1.如何在linux下调试程序&#xff1f; \qquad在进行程序编译时&#xff0c;如果需要调试&#xff0c;那么需要加入调试指令。 gcc filename.c -o 可执行文件名 -g\qquad对程序进行调试 gdb 可执行文件名2.调试的基础操作 \qquad在gdb的界面下的操作&#xff1a;查看 l #默认…

这种记忆技术在弯曲时更好?

A new kind of flexible phase change memory is tested while bent around a 4-millimeter-diameter rod. A.I. KHAN AND A. DAUS来源&#xff1a;IEEE电气电子工程师新的相变存储器需要更少的能量&#xff0c;部分原因是它是建立在塑料上的&#xff1f;要想让粘贴式显示器、…

【计算机网络复习】1.1.3 速率相关的性能指标

速率相关的性能指标一、速率二、带宽三、吞吐量一、速率 速率即数据率或称数据传输率或比特率。 比特 &#xff1a; 1/0 位 连接在计算机网络上的主机在数字信道上传送数据位数的速率。 单位是b/s&#xff0c;kb/s&#xff0c;Mb/s&#xff0c;Gb/s&#xff0c;Tb/s 速率 …