强化学习先驱Richard Sutton:将开发新型计算智能体

38f5026ed1bbdda6d0568c4f2a6d4dce.jpeg

来源:机器之心

编辑:陈萍、小舟

DeepMind 和阿尔伯塔大学联合成立的人工智能实验室未来几年要研究什么?

2017 年,DeepMind 在加拿大的 Edmonton 成立了其首个英国之外的人工智能研究实验室,并和阿尔伯塔大学大学紧密合作,成立了「DeepMind Alberta」,由强化学习先驱 Richard S. Sutton、阿尔伯塔大学教授 Michael H. Bowling、助理教授 Patrick M. Pilarski 领导。

15e830e2c98c655693cba27d99eb747d.jpeg

从左到右:Richard Sutton、Michael Bowling 和 Patrick Pilarski

现在,三位领导者联合发表论文阐述 DeepMind Alberta 在未来一段时间内关于人工智能的计划,即 Alberta Plan。Alberta Plan 是一项面向计算智能的 5-10 年长期规划,旨在填补我们目前对计算智能的理解空白。随着计算智能的发展,它必将深刻影响我们的经济、社会和个人生活。

b4e03b169f63891aba3e40c4314d5781.jpeg

DeepMind Alberta 致力于理解和创建与复杂世界交互并预测和控制其感官输入信号的长寿命计算智能体。智能体的初始设计要尽可能简单、通用和可扩展,并能与复杂的世界长期交互。

这就要求智能体具备多种功能:为了控制输入信号,智能体必须采取行动;为了适应变化世界的复杂性,智能体必须不断学习;为了快速适应,智能体需要用一个学习模型来规划世界。

论文内容主要包括两部分:

一是描述了 DeepMind Alberta 对人工智能研究的愿景及其关于智能的计划和优先工作;

二是描述这一愿景可能的展开路径以及 DeepMind Alberta 将探索的研究问题和项目。

ded26f067e611de444148037ccc74eb5.jpeg

论文地址:https://arxiv.org/abs/2208.11173

围绕智能体进行设计

在 Alberta Plan 的研究愿景中,智能体从其环境中接收观察和奖励信号,并试图通过其动作控制这些信号。这是高级强化学习的标准视角。

d2ccdf49a71d78c0f79a5313052181c7.jpeg

本文智能体的设计遵循标准或者说是基础智能体的设计,如图 2 所示,其被认为是具有 AI、心理学、控制理论、神经科学和经济学的「智能智能体通用模型」。该基础智能体包含四个组件:感知组件能够更新智能体对过去经验或状态的总结,之后这个更新会被其他组件使用;反应策略组件包括智能体所做的策略,依据此,智能体做出动作反应,并根据奖励更新动作。感知和主要策略协同工作,将观察映射到动作。每个策略都有一个对应的价值函数,所有值函数的集合构成值函数组件

3ae77a53bc5ef81c83958d148c954cbd.jpeg

基础智能体的第四个组件是转换模型组件,该组件从观察到的行为、奖励和状态中学习,而不涉及观察。智能体学习完,转换模型就可以采取一种状态和一种动作,并预测下一种状态和下一种奖励。

一般来说,该模型可能在时间上是抽象的,这意味着智能体不采取动作,而是利用选项,如利用策略和终止条件等,并预测选项终止时的状态以及累积的奖励。

转换模型用于设想智能体采取动作 / 选项后可能出现的结果,然后由价值函数评估以改变策略和价值函数本身,这个过程称为规划。规划是连续的且在时间上是统一的,智能体中的每一个 step 都会有一定数量的规划,也许是一系列小的规划,通常来讲规划不会在一个时间步内完成,因此与智能体 - 环境交互相比速度会很慢。

规划是一个连续的过程,在后台异步运行,运行过程不会干扰前三个组件。在每一个 step 中,新的观察都必须经过感知处理以产生状态,然后由主要策略处理以产生该时间步的动作。价值函数必须在前台运行,以评估每个时间步的新状态以及采取前一个动作的决定。

AI 原型路线图

AI 中一个永恒的难题是「部分和整体」的关系。一个完整的 AI 系统必须建立在有效的算法之上,但问题是,在组装出一个完整的系统之前,我们无法确切地知道需要哪些核心算法。因此必须同时处理系统和组件算法,也就是部分和整体的工作。但这样做产生的结果是浪费精力,但又必须执行。

本文的 AI 原型路线图包括以下 12 个步骤:

步骤 1. 表示 I:具有给定特征的连续监督学习。在泛化到更复杂的设置之前,智能体先在最简单的设置下运行并解决问题。步骤 1 解决的问题是对表示的连续学习和元学习,例如如何在长时间连续学习的同时还能快速、稳健和高效地学习。

步骤 2. 表示 II:发现监督特征。步骤 2 的重点是创建和引入新特征。主要关注的问题包括如何从现有特征构建新特征,以最大化新特征的潜在效用和实现该效用的速度,同时不牺牲临时性能。

步骤 3. 预测 I:连续 GVF 预测学习。重复上述两个步骤以进行顺序实时设置。在这一步骤中首先使用给定的线性特征,然后使用特征查找。新特征不仅包括非线性组合,还包括旧信号和迹线的结合。

步骤 4. 控制 I:连续 actor-critic 控制。重复以上三个步骤进行控制。

步骤 5. 预测 II:平均奖励 GVF 学习。这里的主要思想是将对 GVF 的一般预测学习算法扩展到平均奖励。

步骤 6. 控制 II:连续控制问题。这里需要一些连续问题来测试用于学习和规划的平均奖励算法。目前有 River Swim、Access-control Queuing 等算法。

步骤 7. 规划 I:为平均奖励标准开发基于异步动态规划的增量规划方法。

步骤 8. Prototype-AI I:具有连续函数逼近的基于模型的单步强化学习(RL)。Prototype-AI I 将基于平均奖励 RL、模型、规划和连续非线性函数逼近。通过结合一般连续函数逼近,Prototype-AI I 将超越过去基于 Dyna 的工作,但仍将限于单步模型。换句话说,Prototype-AI I 将是一个集成架构。

步骤 9. 规划 II:搜索控制和探索。在规划 II 步骤中,我们将开发了规划控制。规划被视为具有函数逼近的异步值迭代。控制规划过程的早期工作

将包括优先扫描(sweeping)和小型备份,并且研究团队已经进行了一些尝试。

步骤 10. Prototype-AI II:STOMP 进程。研究团队以一种特殊的方式引入时间抽象,即子任务(SubTask)、选项(Option)、模型(Model)和规划(Planning )——STOMP 进程。其中,规划的选项成为反馈循环的一部分,以评估所有早期步骤。

步骤 11. 原型 - AI III:Oak。Oak 架构是 Prototype AI 2 的一个小修改,引入了一个可选键盘。键盘的每个键都引用了基于子任务的选项来实现相应的功能。

步骤 12. 原型 - IA:智能放大。一个智能应用 (IA,intelligence applification) 的演示,其中原型 - IA 2 智能体可以同时兼顾速度与决策能力。

更多内容请查看原论文。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

af120315612fdde2afef82f874497131.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不隐身的“隐身战斗机”

7月19日,韩国KF-21战斗机原型机完成首飞,韩国国防部将该机定位为4代半战斗机。凭借该机,韩国将成为第9个能够研制超音速战斗机的国家。 所谓4代半战斗机,即部分采用隐身技术,同时无法完全达到5代机性能标准的战斗机。…

国科大高级人工智能笔记1-搜索

1.搜索问题 搜索问题——对原问题的建模 构成: 状态空间 包含环境中每一个细节搜索状态:只保留行动需要的细节 后继函数 行动,消耗 初始状态和目标测试 解: 一个行动序列,将初始状态–>目标状态 表示 状态空间图 搜…

自学成才的人工智能显示出与大脑工作方式的相似之处

来源:ScienceAI编译:白菜叶十年来,许多最令人印象深刻的人工智能系统都是使用大量标记数据进行教学的。例如,可以将图像标记为「虎斑猫」或「虎猫」,以「训练」人工神经网络以正确区分虎斑和虎。该战略既取得了惊人的成…

国科大高级人工智能2-人工神经网络(MLP、Hopfield)

常见组合函数 常见激活函数 结构 前馈神经网络(单向)反馈/循环神经网络 学习方法 学习模型 增量迭代 类型 监督无监督 学习策略 Hebbrian Learning 若两端的神经元同时激活,增强联接权重Unsupervised Learning循环?ωij(t1)ω…

Nature:AI的瓶颈突破在于「实体人工智能(PAI)」

来源:公众号机器之能作者:AslanMiriyev 、 Mirko Kovač翻译:Panda近些年人工智能领域已经取得了突飞猛进的进步,但这些进步大都集中于数字人工智能领域,对于能和我们这种生物体一样执行日常任务的实体人工智能&#x…

国科大高级人工智能3-DNN(BM/RBM/DBN/DBM)

1.深层、浅层、BP 出现背景优点缺点浅层神经网络为了解决非线性问题可以拟合任何函数参数多,神经元多,需要更多的计算资源和数据BP算法(对p(labelinput)建模为了计算神经网络损失回传深度神经网络(>5)(时代背景数据…

世界元宇宙大会—李伯虎院士主旨报告:工业元宇宙模式、技术与应用初探

来源:北京物联网智能技术应用协会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)…

国科大高级人工智能+prml4-CNN

文章目录CNN卷积paddingpoolingBP其他CNNResNets残差网络——图像数据应用CNN Hebb学习律(无监督 如果两个神经元在同一时刻被激发,则他们之间的联系应该被强化对神经元的重复刺激,使得神经元之间的突触强度增加 Delta学习律(有监…

​Science:灵长类前额叶皮质进化图谱

来源:brainnews相比其它物种,包括亲缘关系非常近的灵长类,我们人类进化出了高级的认知和复杂的社会行为。毋庸置疑,人类大脑是这一切独特变化的中心,而其中的前额叶皮质又格外的引人注目。灵长类的前额叶皮质跟其他物种…

基于深度学习的机器人目标识别和跟踪

如今,深度学习算法的发展越来越迅速,并且在图像处理以及目标对象识别方面已经得到了较为显著的突破,无论是对检测对象的类型判断,亦或者对检测对象所处方位的检测,深度学习算法都取得了远超过传统机器学习算法的准确率…

国科大高级人工智能5-RNN/LSTM/GRU/集束搜索/attention

文章目录BPTTBPTT前向传播长序列循环神经网络LSTM序列到序列的模型集束搜索——近似搜索改进的集束搜索集束搜索的误差分析图到文本注意力模型序列数据建模 输入序列–>输出序列预测序列的下一项(监督) 模糊了监督和非监督 有的cnn对序列不适用&…

揭秘虚拟电厂,它究竟是如何运行的?

来源:新浪科技(ID:techsina)作者:刘丽丽编辑 :韩大鹏与电力调度相关的虚拟电厂再次引发市场关注。日前,国内首家虚拟电厂管理中心深圳虚拟电厂管理中心揭牌,国内虚拟电厂迈入了快速发展新阶段。…

国科大高级人工智能6-GAN

文章目录生成式模型的基础:极大似然估计GANs最终版本问题非饱和博弈DCGAN不同类型的GANconditional GAN无监督条件GAN--cycle GAN对抗学习https://blog.csdn.net/suyebiubiu/category_9372769.html生成式模型的基础:极大似然估计 θ∗argmaxθExpdatalog…

为什么量子力学总是让人感到疑惑?

来源:中科院物理所作者:Paul Austin Murphy翻译:Nothing审校:藏痴我们认为量子粒子很奇怪的主要问题是将量子粒子视为经典粒子而它们的行为却表现得非常非经典。(或者,问题是将量子粒子视为“物体”&#x…

国科大高级人工智能7-命题逻辑

文章目录命题逻辑(语法Syntax)由枚举推理(inference by enumeration区别deduction(形式推演,演绎)作业(定理证明)logics:逻辑,表达信息的形式语言 语法syntax 语义semantics 逻辑…

费爱国院士:中国城市大脑已走在世界前沿,但仍需努力

信息来源:网易科技2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元基本规定》等三项团体标准,学会理事长,工…

国科大高级人工智能8-归结原理和horn子句

只有一条规则的推理 resolution(消解,归结) CNF(conjunction normal form合取范式 (A∨B)∧(B∨C)(A∨B)∧(B∨C)(A∨B)∧(B∨C)任何逻辑式都可转化为语义等价的CNF resolution消解(推理规则&…

国科大高级人工智能9-模糊数学和遗传算法

文章目录1.模糊计算笛卡尔积、关系模糊集连续的隶属度函数运算2.evolution 遗传算法1.模糊计算 why模糊 取得精确数据不可能或很困难没有必要获取精确数据 模糊性概念:对象从属的界限是模糊的,随判断人的思维而定 不同人的界定标准不一样 隶属函数&…

周宏仁详解智能革命:“人类不可能瞬间无处不在,但软件可以!”

来源:域名国家工程研究中心 ZDNS“最优秀的人类战斗员也无法抵御以超音速飞行、由人工智能跨地域组织、每秒机动数千次的多台作战装备。人类不可能瞬间无处不在,但软件可以。”近日,信息化百人会顾问、原国家信息化专家咨询委员会常务副主任周…

图灵奖得主Jack Dongarra:高性能计算与AI大融合,如何颠覆科学计算

来源: 智源社区整理:王光华编辑:李梦佳导读:浩瀚的宇宙中两个星云不断彼此接近、融合、再爆炸,这样奇幻的天文景观正是采用高性能计算(HPC)进行建模仿真生成的。在过去的三十年间,高…