实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标...

来源:机器学习研究组订阅

通用人工智能,用强化学习的奖励机制就能实现吗?

几十年来,在人工智能领域,计算机科学家设计并开发了各种复杂的机制和技术,以复现视觉、语言、推理、运动技能等智能能力。尽管这些努力使人工智能系统在有限的环境中能够有效地解决特定的问题,但却尚未开发出与人类和动物一般的智能系统。

人们把具备与人类同等智慧、或超越人类的人工智能称为通用人工智能(AGI)。这种系统被认为可以执行人类能够执行的任何智能任务,它是人工智能领域主要研究目标之一。关于通用人工智能的探索正在不断发展。近日强化学习大佬 David Silver、Richard Sutton 等人在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化。

论文地址:

https://www.sciencedirect.com/science/article/pii/S0004370221000862

该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为,包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力,并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为。因此,他们得出结论:强化学习将促进通用人工智能的发展。

AI 的两条路径

创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素。例如,我们对哺乳动物视觉系统的理解催生出各种人工智能系统,这些系统可以对图像进行分类、定位照片中的物体、定义物体的边界等。同样,我们对语言的理解也帮助开发了各种自然语言处理系统,比如问答、文本生成和机器翻译。

但这些都是狭义人工智能的实例,只是被设计用来执行特定任务的系统,而不具有解决一般问题的能力。一些研究者认为,组装多个狭义人工智能模块将产生更强大的智能系统,以解决需要多种技能的复杂问题。

而在该研究中,研究者认为创建通用人工智能的方法是重新创建一种简单但有效的规则。该研究首先提出假设:奖励最大化这一通用目标,足以驱动自然智能和人工智能中至少大部分的智能行为。」

这基本上就是大自然自身的运作方式。数十亿年的自然选择和随机变异让生物不断进化。能够应对环境挑战的生物才能得以生存和繁殖,其余的则被淘汰。这种简单而有效的机制促使生物进化出各种技能和能力来感知、生存、改变环境,以及相互交流。

研究者说:「人工智能体未来所面临的环境和动物与人类面临的自然世界一样,本质上是如此复杂,以至于它们需要具备复杂的能力才能在这些环境中成功生存。」因此,以奖励最大化来衡量的成功,需要智能体表现出相关的智能能力。从这个意义上说,奖励最大化的一般目标包含了许多甚至可能是所有的智能目标。并且,研究者认为最大化奖励最普遍和可扩展的方式是借助与环境交互学习的智能体。

奖励就足够了

与人工智能的许多交互式方法一样,强化学习遵循一种协议,将问题分解为两个随时间顺序交互的系统:做出决策的智能体(解决方案)和受这些决策影响的环境(问题)。这与其他专用协议形成对比,其他专用协议可能考虑多个智能体、多个环境或其他交互模式。

基于强化学习的思想,该研究认为奖励足以表达各种各样的目标。智能的多种形式可以被理解为有利于对应的奖励最大化,而与每种智能形式相关的能力能够在追求奖励的过程中隐式产生。因此该研究假设所有智能及相关能力可以理解为一种假设:「奖励就足够了」。智能及其相关的能力,可以理解为智能体在其环境中的行为奖励最大化。

这一假设很重要,因为如果它是正确的,那么一个奖励最大化智能体在服务于其实现目标的过程中,就可以隐式地产生与智能相关的能力,具备出色智能能力的智能体将能够「适者生存」。研究者从以下几个方面论述了「奖励就足够了」这一假设。

知识和学习

该研究将知识定义为智能体内部信息,例如,知识可以包含于用于选择动作、预测累积奖励或预测未来观测特征的函数参数中。有些知识是先验知识,有些知识是通过学习获得的。奖励最大化的智能体将根据环境情况包含前者,例如借助自然智能体的进化和人工智能体的设计,并通过学习获取后者。随着环境的不断丰富,需求的平衡将越来越倾向于学习知识。

感知

人类需要各种感知能力来积累奖励,例如分辨朋友和敌人,开车时进行场景解析等。这可能需要多种感知模式,包括视觉、听觉、嗅觉、躯体感觉和本体感觉。

相比于监督学习,从奖励最大化的角度考虑感知,最终可能会支持更广泛的感知行为,包括如下具有挑战性和现实形式的感知能力:

  • 动作和观察通常交织在多种感知形式中,例如触觉感知、视觉扫视、物理实验、回声定位等;

  • 感知的效用通常取决于智能体的行为;

  • 获取信息可能具有显式和隐式成本;

  • 数据的分布通常依赖于上下文,在丰富的环境中,潜在数据多样性可能远远超过智能体的容量或已存在数据的数量——这需要从经验中获取感知;

  • 感知的许多应用程序无法获得有标记的数据。

社交智能

社交智能是一种理解其他智能体并与之有效互动的能力。根据该研究的假设,社交智能可以被理解为在智能体环境中的某一智能体最大化累积奖励。按照这种标准智能体 - 环境协议,一个智能体观察其他智能体的行为,并可能通过自身行为影响其他智能体,就像它观察和影响环境的其他方面一样。一个能够预测和影响其他智能体行为的智能体通常可以获得更大的累积奖励。因此,如果一个环境需要社交智能(例如包含动物或人类的环境),奖励最大化将能够产生社交智能。

语言

语言一直是自然和人工智能领域大量研究的一个主题。由于语言在人类文化和互动中起着主导作用,智能本身的定义往往以理解和使用语言的能力为前提,尤其是自然语言。

然而,当前的语言建模本身不足以产生更广泛的与智能相关的语言能力,包括:

  • 语言通常是上下文相关的,不仅与所说的内容相关,还与智能体周围环境中正在发生的其他事情有关,有时需要通过视觉和其他感官模式感知。此外,语言经常穿插其他表达行为,例如手势、面部表情、音调变化等。

  • 语言是有目的并能对环境产生影响的。例如,销售人员学习调整他们的语言以最大化销售额。

  • 语言的具体含义和效用因智能体的情况和行为而异。例如,矿工可能需要有关岩石稳定性的语言,农民可能需要有关土壤肥力的语言。此外,语言可能存在机会成本,例如讨论农业的人并不一定是从事农业工作)。

  • 在丰富的环境中,语言处理不可预见事件的潜在用途可能超出任何语料库的能力。在这些情况下,可能需要通过经验动态地解决语言问题。例如开发一项新技术或找到一种方法来解决一个新的问题。

该研究认为基于「奖励就足够了」的假设,丰富的语言能力,包括所有这些更广泛的能力,都应该源于对奖励的追求。

泛化

泛化能力通常被定义为将一个问题的解决方案转换为另一个问题的解决方案的能力。例如,在监督学习中,泛化可能专注于将从一个数据集(例如照片)学到的解决方案转移到另一个数据集(例如绘画)。

根据该研究的假设,泛化可以通过在智能体和单个复杂环境之间的持续交互流中最大化累积奖励来实现,这同样遵循标准的智能体 - 环境协议。人类世界等环境需要泛化,因为智能体在不同的时间会面对环境的不同方面。例如,一只吃水果的动物可能每天都会遇到一棵新树,这个动物也可能会受伤、遭受干旱或面临入侵物种。在每种情况下,动物都必须通过泛化过去状态的经验来快速适应新状态。动物面临的不同状态并没有被整齐地划分为具有不同标签的任务。相反,状态取决于动物的行为,它可能结合了在不同时间尺度上重复出现的各种元素,可以观察到状态的重要方面。丰富的环境同样需要智能体从过去的状态泛化到未来的状态,以及所有相关的复杂性,以便有效地积累奖励。

模仿

模仿是与人类和动物智能相关的一种重要能力,它可以帮助人类和动物快速获得其他能力,例如语言、知识和运动技能。在人工智能中,模仿通常被表述为通过行为克隆,从演示中学习,并提供有关教师行为、观察和奖励的明确数据时。相比之下,观察学习的自然能力包括从观察到的其他人类或动物的行为中进行的任何形式的学习,并且不要求直接访问教师的行为、观察和奖励。这表明,与通过行为克隆的直接模仿相比,在复杂环境中可能需要更广泛和现实的观察学习能力,包括:

  • 其他智能体可能是智能体的环境的组成部分(例如婴儿观察其母亲),而无需假设存在包含教师数据的特殊数据集;

  • 智能体可能需要学习它自己的状态与另一个智能体的状态之间的关联,或者智能体自己的动作和另一个智能体的观察结果,这可能会产生更高的抽象级别;

  • 其他智能体可能只能被部分观察到,因此他们的行为或目标可能只是被不完美地推断出来;

  • 其他智能体可能会表现出应避免的不良行为;

  • 环境中可能有许多其他智能体,表现出不同的技能或不同的能力水平。

该研究认为这些更广泛的观察学习能力能够由奖励最大化驱动的,从单个智能体的角度来看,它只是将其他智能体视为其环境的组成部分,这可能会带来许多与行为克隆相同的好处。例如样本高效的知识获取,但这需要更广泛和更综合的背景下。

通用智能

基于该研究的假设,通用智能可以理解为通过在单一复杂的环境中最大化一个特殊奖励来实现。例如,自然智能在其整个生命周期中都面向从与自然世界的互动中产生的连续经验流。动物的经验流足够丰富和多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗、逃跑等),以便成功地最大化其整体奖励(例如饥饿或繁殖) 。类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。

强化学习智能体

该研究的主要假设是智能及其相关能力可以被理解为促进奖励最大化,这与智能体的性质无关。因此,如何构建最大化奖励的智能体是一个重要问题。该研究认为这个问题同样可以通过问题本身,即「奖励最大化」来回答。具体来说,研究者设想了一种具有一般能力的智能体,然后从他们与环境交互的持续经验中学习如何最大化奖励。这种智能体,被称之为强化学习智能体。

在所有可能的最大化奖励的解决方法中,最自然的方法当然是通过与环境交互,从经验中学习。随着时间的推移,这种互动体验提供了大量关于因果关系、行为后果以及如何积累奖励的信息。与其预先确定智能体的行为(相信设计者对环境的预知),不如赋予智能体发现自己行为的一般能力(相信经验)是很自然的。更具体地说,最大化奖励的设计目标是通过从经验中学习最大化奖励的行为的持续内部过程来实现的。

奖励真的足够了吗?

对于该研究「奖励就足够了」的观点,有网友表示不赞成:「这似乎是对个人效用函数这一共同概念的重新语境化。所有生物都有效用函数,他们的目标是最大化他们的个人效用。效用理论有着深厚而丰富的历史渊源,但本文对效用理论的认识并不多见。Silver 和 Sutton 都是 RL 领域的大牛,但对我而言,这篇论文给我的感觉很糟糕。」

还有网友认为这是重新包装进化论:

如此优秀的两位计算机科学家这是在重新包装进化论?这里的实际意义是什么?如果有足够的时间和复杂性,进化(奖励信号)可以发明智能。这有什么意义?智能需要从奖励中获得就像是在表述「人会呼吸」,这似乎是句废话。

甚至有人质疑「备受尊敬的研究者更容易陷入过度自信」:

还有网友表示:「这篇文章没有对可以做什么和不能做什么设置任何界限。难道无需直接分析函数即可知道在尝试最大化函数时可以或不能出现什么吗?奖励函数与获得这些奖励的系统相结合,完全确定了 “可出现” 行为的空间,而无论出现什么,对它们来说都是智能行为。」

不过,也有人提出了一个合理的问题:

最终目标奖励是否会产生一般的智能,或者是否会产生一些额外的信号?纯奖励信号是否会陷入局部最大值?他们的论点是,对于一个非常复杂的环境,它不会。

但如果你有一个足够复杂的环境,模型有足够的参数,并且你不会陷入局部最大值,那么一旦系统解决了问题中的琐碎,简单的部分,唯一的方法是提高性能,创建更通用的解决方案,即变得更智能。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这可能是十年来最酷的神经科学发现

© Designer Shit Documentary来源:Diego Salinas翻译:Rachel校对:Yord原文:medium.com/artificial-intelligence-and-cognition/what-makes-emotions-feel-good-or-bad-9bdcd0a81afc过去的十年是神经科学史上极不平凡的十年&…

计算机网络(二十一)-数据链路层设备

1.1 物理层扩展以太网 扩展添加了主干集线器,信道的冲突概率增大,冲突域增加,效率降低。 1.2 链路层扩展以太网 可以通过网桥和交换机来实现。 网桥:根据MAC帧的目的地址对帧进行转发和过滤。当网桥接收到一个帧时&#xff0…

计算机网络(十八)-以太网

一.概述 1.1 以太网指的是由Xerox公司创建并由Xerox、Intel和DEC公司联合开发的基带总线局域网规范,是当今现有局域网采用的最通用的通信协议标准。以太网络使用CSMA/CD技术。 1.2 以太网在局域网各种技术中占统治性地位。 造价低;是应用最广泛的局域网技术。比令…

Cell颠覆性发现:中脑神经元的新作用

来源:生物通除了颠覆长期以来关于中脑运动区域作用的观点,这项研究还可能缓解对药物无效的帕金森病患者的姿势和步态问题具有启示意义。中脑运动区是中脑的一部分,参与调节许多动物的行走和其他形式的运动。但是大脑这一区域神经元的功能仍然…

计算机网络(十九)-IEEE802.11无线局域网

IEEE802.11是无线局域网的通用的标准,它是由IEEE所定义的无线网络通信的标准。 802.11的MAC帧头格式 3.无线局域网分类 有固定基础设施无线局域网 wifi名称其实就是服务集标识符。无固定基础设施无线局域网的自组织网络

谷歌用量子计算机造出「时间晶体」,挑战热力学第二定律

来源:新智元近日,谷歌联合几十位物理学家,用量子计算机造出了「时间晶体」。你能想象得到,有这样一个物体,竟然跳出了经典的热力学第二定律?没错,这就是「时间晶体」。然而,时间晶体…

7、JPA-映射-双向一对多

一个用户对应多个订单,多个订单对应一个用户,不管查哪一边都可以得到另一边的信息 实体类 Customer package com.jpa.yingshe;import javax.persistence.*; import java.util.HashSet; import java.util.Set;Table(name "JPA_CUTOMERS") Enti…

计算机网络(二十)-广域网-PPP协议和HDLC协议

一.广域网 广域网,通常跨接很大的物理范围,所覆盖的范围从几十公里到几千公里,它能连接多个城市或国家,远距离通信,形成国际性的远程网络。 广域网的通信子网主要使用分组交换技术。广域网的通信子网可以利用分组交换…

导弹防御系统,如何跟蜻蜓的大脑学习计算?

来源:大数据文摘作者:Frances Chance多雨的夏季,蜻蜓最为常见,这些美丽的生物的飞行速度极快,狩猎能力也极为出色:蜻蜓狩猎的成功率捕获了高达95% ,它们一天可以吃掉数百只蚊子。这种狩猎能力吸…

分布式文件系统HDFS

1.HDFS简介 1.1 Hadoop Distributed File System,简称HDFS。解决海量数据的分布式存储。 1.2 分布式文件系统 计算机集群中内部机器通过光纤高速交换机进行连接,机架之间通过宽带更高的光纤交换机连接。 有一个主节点机器其他的为从节点机器&#xff…

小程序开发初体验,从静态demo到接入Bmob数据库完全实现

之前我胖汾公司年会、问我能不能帮忙搞个小程序方便他们进行游戏后的惩罚/抽奖使用、出了个简单的设计图、大概三天左右做了个简单的小程序、目前提交审核了。对于写过一小段时间vue来说小程序很容易上手、写法和结构差不多。 ----------------- 这里整理的内容大致划分四个部分…

演讲实录丨徐宗本院士:如何突破机器学习的先验假设?

来源:中国人工智能学会2021年6月5日至6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技城管理委员会具体…

hbase单机模式配置

1.软件 https://pan.baidu.com/s/1mgPA8s02FFyPqcc9DmR-FA 提取码: 337t 2.在安装hbase之前,确保你的电脑已经安装Hadoop3.1.3,hbase对Hadoop具有版本依赖。 3.将hbase压缩文件解压到/usr/local目录下,先切换到压缩文件所在目录&#xff0…

QT QTransform与QMatrix 有啥区别?

刚开始学习QT,我使用的是QT5.12进行开发,要不时地查阅QT的官方帮助文档~ 仔细阅读QT官方帮助QTransform类以及QMatrix类,发现两个类的作用描述一模一样(“The QTransform class specifies 2D transformations of a coordinate sys…

hbase伪分布式配置

1.在单机模式的基础上进行配置,打开hbase-env.sh。 vim /usr/local/hbase/conf/hbase-env.sh2.配置HBASE_CLASSPATH为hadoop安装目录下的conf目录,即 /usr/local/hadoop/conf。JAVA_HOME、HBASE_MANAGES_ZK之前已经配置好了。 export HBASE_CLASSPATH/…

机器学习是科学还是“炼金术”?

作者:Samuel Flender译者:王强策划: 刘燕在实证领域,科学的严谨性是从假设开始塑造的。业界对机器学习研究的科学严谨性的质疑声越来越多了。在 2017 年 NIPS 会议上的一场 演讲 中,当时就职于谷歌 AI 的 Ali Rahimi 和 Ben Recht 认为 ML 已经成为了一种…

谷歌发布史上最强人类大脑「地图」,在线可视3D神经元「森林」!

来源:机器学习研究组订阅突触,是神经网络的「桥梁」。我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元。长久以来,科学家们一直梦想通过绘制完整的大脑神经网络…

javaweb c3p0连接oracle12c

最近在搞javaweb,在连接池上碰到了一系列的问题,在Junit测试时,oracle12c报错: ORA-28040: 没有匹配的验证协议 百度解决:修改 $ORACLE_HOME/network/admin/sqlnet.ora 加入如下:   SQLNET.ALLOWED_LOGON_VERSION8 之…

数学的意义——席南华院士科普讲座实录

来源:中国数学会编辑:nhyilin谢谢主持人的介绍,谢谢大家在周末星期六的下午听这个报告。我今天要说的是“数学的意义”。数学,要说爱你不容易,不管你是天才还是庸人,都是它虐待的对象,差别在于有…

C#穿透session隔离———Windows服务启动UI交互程序

在Windows服务里面启动其他具有界面的应用程序,需要穿透session隔离,尝试了很多种方法,都可行,现在一一列举下来,并写下几个需要注意的地方。 需要注意的地方 首先要将服务的Account属性设置为LocalSystem,…