站在AI与神经科学交叉点上的强化学习

640?wx_fmt=jpeg

来源: 混沌巡洋舰

一,强化学习概述

让机器来决策,首先体现在如何模仿人类的决策。对于决策这个问题, 对于人类是困难的, 对于机器就更难。

而强化学习, 就是一套如何学习决策的方法论。

强化学习最初的体现就是试错学习, 因此理解强化学习的第一个层次就是如何通过一个简单的机制在不确定的环境下进行试错, 掌握有用的信息。

在这个框架下, 我们需要掌握的只有两个基本要素, 一个是行为,一个是奖励。 在这个级别的强化学习, 就是通过奖励,强化正确的行为。

所谓行为,行为的定义是有限的选项里选一个, 所谓智能体的决策,走哪一个都有正确的可能,但是我们预先不知道这个东西。

所谓奖励, 就是环境在智能体作出一个行为后,给它的反馈。

大家看到,如果这个奖励是已知的,那么也就没有了任何的游戏需要进行的可能了。你为什么要学?每个行为得到的后果是不知道的啊!奖励具有随机性, 同样的条件性,有的时候我们可以得到奖励, 有时候没有, 奖励可以是正向的,也可以是负向的(惩罚)。

其实生物的进化史可以看作是强化学习的前传, 细菌和十亿年的 的恶略环境下棋, 把对哪些化学物质该如何转化这个信息深深的埋藏在了它的DNA里, 因此才可以有如今如此从极地到大漠的如此伟大的适应性。这种方法的缺陷是被动, 所以速度慢 。而强化学习可以更主动的试错。

由于决策与控制问题的重要性, 强化学习被用在或有潜力被用在从智能制造, 无人驾驶, 智能交通, 算法交易, 智能分布式控制(电网),医疗机器人, 对话机器人等所有领域。这些在巡洋舰之前的文章都有涉及, 这一篇的目的是进一步增大之前文章的理论深度, 通过对目前一些文献的总结, 从跨学科的角度看待强化学习的未来发展。

二 强化学习与神经科学的交叉历史:

1, 强化学习的心理学背景:

强化学习之父sutton & button 有着极强的心理学和计算机交叉背景, 而强化学习的思想根源, 与早期的条件反射理论有很深的渊源。动物行为的根据在于最大化奖励, 那么如何从奖励到行为?早期的强化学习理论立足解释这个心理学现象, 并且用一套完整的数学公式表达这个过程(Rescorla and Wagner formula), 而之后演绎出非常完整的TD学习公式, 称为整个model free reinforcement Learning的根据。

640?wx_fmt=jpeg

这套数学理论的核心是正确行为的核心在于正确预测未来奖励, 虽然对未来的预测总是不准确的, 我们却可以随着证据的增加用迭代的方法逼近正确。新的预测和之前的预测的差距被称为TD误差(我们可以称之为超乎预料的量)。强化学习的理论指出, 虽然绝对的预测不可得到, 当这这种下一步和当下步的奖励预测之差逐步趋零, 我们就达到了强化学习的最优状态。因此, 最终学习的直接目标不是奖励最大, 而是最小预测误差。这个理论可以极好的解释一级和二级条件反射的心理学现象(通过值函数建立一系列刺激和最终奖励的联系, 例如狗听摇铃分泌唾液是因为奖励的预期)。

有了TD误差,如何优化决策(行为)呢?毕竟它只是对奖励的估计啊 。但是不要忘了预测是行为的基础, 有关行为的优化,强化学习分成两种不同的实现方法, 一种是基于这个TD误差的估计直接修改不同行为的概率, 好比当上一步的行为导致现实低于预期, 那个那个行为的概率就要减小, 反之亦然(policy gradient, actor-critic)。另一个方法是直接把行为本身当作预测函数的一个变量, 这样直接每次直接找到对应最大预期的行为就可以了, 无形种把行为控制放到了预测里(Q learning)。这两种方法构成强化学习的两大基本方法。

强化学习的理论可以看作心理学启发下,实现的极为成功的数学算法,最初级版本的强化学习, 翻译成算法,并和深度学习那套结合,就会得到当下的深度强化学习标准框架,其极大成者,就是以DQN,DRQN为代表的深度强化学习。深度强化学习成为了人工智能浪潮中最明亮的一颗星。从阿法狗, 阿法元, 到打星际的AI, 打德扑的AI, 无疑没有它的身影。

事实上, 深度强化学习无非是之前的强化学习,加上深度学习的羽翼的一次巨大飞跃。而其中的关键, 在于神经网络的表达能力, 为强化学习解决了一个特别重大的问题, 就是值函数和策略梯度的表达。因为之前的强化学习, 依赖一个巨大的行为状态表, 和依赖它的策略梯度函数。这个东西在现实的game里可不可行, 当然no, 真实的游戏显然不能简单归纳到一张表上。而用深度神经网络,我们可以不需要找到这张几乎无限大的行为状态表, 而是用深度网络来, 仅仅用极为有限的观测输入, 来逼近这张表,或者对无穷多的状态进行归纳, 无论是时间维读还是空间维度的拓展。这就是从阿法狗, 到Atari,到星际的一个核心机密。

反之, 强化学习算法也支撑了人们对生物神经系统如何实现强化学习的探究。

强化学习在生物神经系统的实现

如果人或动物真的在进行类似刚刚归纳的强化学习, 那么它必然有其依赖实现的神经基础。那么这个神经实现是什么呢, 就是如何实现刚刚说的算法。首先谁是期望(预测)误差?一种主流观点认为 dopamine 神经元能够代言这个角色。很多人认为dopamine是代表快乐的神经递质, 而事实上, 神经科学家发现更准确的描述是它其实传递的是刚刚说的TD误差, 也就是一种对未来奖励的预计和之前的心理基准的比较。也是为什么真正的快乐总是在于进步而非奖励本身,当我们得到一个超乎预期的结果, 会特别高兴, 反之沮丧。

Niv, Yael, Michael O. Duff, and Peter Dayan. "Dopamine, uncertainty and TD learning."Behavioral and brain Functions1.1 (2005): 6.

那么算法里的行为改进部分呢?更多的神经元根据支持第一种算法, 这时候我们发现了cortico-basal ganglia回路。basal ganglia 作为价值枢纽可以对存储在其它脑区中的可选行为进行评价, 完成类似于actor-critic的算法。

Khamassi, Mehdi, et al. "Actor–Critic models of reinforcement learning in the basal ganglia: from natural to artificial rats."Adaptive Behavior13.2 (2005): 131-148.

Barto, Andrew G. "1 ‘1 Adaptive Critics and the Basal Ganglia,.’."Models of information processing in the basal ganglia215 (1995).

Ito, Makoto, and Kenji Doya. "Multiple representations and algorithms for reinforcement learning in the cortico-basal ganglia circuit."Current opinion in neurobiology21.3 (2011): 368-373.

Houk, James C., and Steven P. Wise. "Distributed modular architectures linking basal ganglia, cerebellum, and cerebral cortex: their role in planning and controlling action."Cerebral cortex5.2 (1995): 95-110.

Maia, Tiago V., and Michael J. Frank. "From reinforcement learning models to psychiatric and neurological disorders."Nature neuroscience14.2 (2011): 154.

Reward-based training of recurrent neural networks for cognitive and value-based tasks H Francis Song1 , Guangyu R Yang1 , Xiao-Jing Wang1,2*

640?wx_fmt=jpeg

640?wx_fmt=jpeg

Reinforcement learning in artificial and biological systems。两个不同的奖励学习回路, 左边的擅长学习感知的来的不同object的value, 右边擅长学习biology和cognitive process的value

既然强化学习的历史表明它来源于心理学启发, 又反哺了神经科学, 那么进一步讲,当下的神经科学中的强化学习与AI中的强化学习各自发展出了核心区别?Reinforcement learning in artificial and biological systems 给出了非常有趣的对比, 要点如下:

Neftci, Emre O., and Bruno B. Averbeck. "Reinforcement learning in artificial and biological systems."

1, 生物强化学习是一个多尺度的连续学习过程, 而当下的强化学习目前只有单一的时间尺度。

生物的强化学习旨在提高多任务的学习性能, 通过连续多阶段的学习来得到可以在不同任务间迁移的能力, AI强化学习目前集中于单任务学习。生物系统对值函数的学习也分为不同时间尺度。

640?wx_fmt=jpeg

Reinforcement learning in artificial and biological systems 杏仁核与纹状体学习不同时间尺度的value function, 一个善于快速适应, 一个擅长较稳定的学习

2, 生物强化学习是一个多层级的hierarchical system, 而当下的强化学习这一思想还处于初级阶段。

3, 目前的AI强化学习把算法强行切割成有模型和无模型学习, 生物系统的适应方式要灵活的多。

此处涉及关于免模型学习与有模型强化学习:强化学习成立之初进行的游戏十分简单, 通过状态是已知给定的。而当游戏变得越来越复杂, 之前提及的方法就面临一个致命的缺陷, 也就是由于强化学习agent对世界的结构未知, 通过随机行为得到的奖励或惩罚更新值函数变得越来越不可行。因为这个游戏太大了, 这种采样效率到了天荒地老也只是学到了冰山一角的状态。那么如何掌握这种超大游戏呢? 一个假设是生物通过预测整个游戏的结构, 来达到四两拨千斤的目的。这种改变被称为有模型强化学习,也就是每一步agent都可以遇到到环境变化的下一步状态,或者掌握整个环境的状态迁移矩阵。

生物系统的有模型学习要灵活的多, 而且免模型学习和有模型学习间的区别并非泾渭分明。比如某成程度上, 能够在变化环境中掌握一部分不变的规则, 或者学习到引起多个感官信号背后的隐变量, 以及对环境的结构进行一定程度的抽象,都是一定程度具备了有模型学习的能力。

这些区别的一个综合体现就在于数据利用率的区别。一个阿法狗能够超于人类那是几十万盘棋堆出来的, 人吃亏在于不可能不吃饭不睡觉活500年去下棋。但是阿法狗的学习速度事实上并不快。

但是这种暴力试错在真实生活中不可行, 一个公司去设计一个依靠强化学习的自动驾驶汽车, 它不可能像下围棋那样在虚拟世界暴力运算解决。

也就是说当下的深度强化学习太慢了(数据利用率太低了), 真实生活中没有卵用。

那么, 有没有办法解决这个数据利用率的问题呢?其实刚刚说的已经隐含了答案, 继续模仿生物!

一篇叫做强化学习, 快与慢的文章给出了一个可能的答复:

Botvinick, Mathew, et al. "Reinforcement learning, fast and slow."Trends in cognitive sciences(2019).

首先文章剖析了深度强化学习为什么数据利用效率低:1, 模型参数的更新缓慢, 随机梯度下降天生慢。2, 模型缺少有效的inductive bias(网络结构太单一),大家都知道, inductive bias 通过缩小模型的可能性空间, 来使得学习速率急速的上升。生物那种快速的学习能力, 正在于潜藏在我们基因里的那些网络结构参数, 它们共同构成了无数的inductive bias , 让我们为美食而哭泣, 遇到蛇而恐惧。这些inductive bias是亿万年进化引起的, 它赋予了我们快速学习的能力。

好了, 如何解决梯度下降太慢的问题?

我这里问大家一个问题, 生物的学习是不是比梯度下降快?答案是yes or no。生物网络对权重的改变称为plasticity, 这个东西其实一点也不快。真正让生物学习快的方法在于生物的学习通常敢于不学习权重,比如你刚刚被狗咬了, 是不是看到一个类似狗的什么东西会立刻躲开呢?不是你大脑里的权重变化了, 而是你记住了刚刚的经历。这个方法被用到深度强化学习里, 被称为episodic memory learning。我们通过一些记忆的载体, 一些不同的神经网络, 把一些过往的记忆存储起来, 然后,当一个新的经历到来, 它会被提取出来和所有的过往经历进行对比, 然后从最相似的经历里, 去读取它的value function。

这个想法是不是非常牛?但是这里的问题是, 记忆的存储和提取都必须是快速准确的,这就重新回到了embedding的这个深度学习的核心问题。如何把信息最有效的方法表达和存储,事实上是一个编码问题。因此这个方法的使用是要建立在存在一个很好的编码网络的基础上。

然后 ,如何解决inductive bias的问题?我们知道inductive bias是千百年生物进化形成的。但是, 通过各种各样的深度学习训练,我们或许可以用比进化更快的方法获取这些bias。这里一个重要的工作就是meta reinforcement learning - 元强化学习。元学习同样是心理学的概念, 其核心含义在于通过学习获取后面学习的能力。因为学习的本质是基于一定规则, 从旧有的数据里挖掘新的数据的含义。那么规则从哪里来呢?有些是我们直接从人类的知识里获取的。比如卷积网络和循环神经网络,它们分别代表了空间和时间平移不变性, 它是从我们的神经学知识里发掘出来的。如果我们预先不知道, 机器可不可以掌握这样的规律?meta reinforcement learning 认为是可以的。通过训练RNN进行一连串不同但相关的任务, RNN可以发现在不同的任务背后类似的共同结构或规则。这些结构或规则被RNN利用其动力学表达出来,因此在学习类似的任务时候, 速度就会非常快,甚至不用学习。这个方法展示了神经网络学习inductive bias 的可能性。

Wang, Jane X., et al. "Prefrontal cortex as a meta-reinforcement learning system."Nature neuroscience21.6 (2018): 860.

Wang, Jane X., et al. "Learning to reinforcement learn, 2016."arXiv preprint arXiv:1611.05763.

除了上述方向, 强化学习的其它前沿方向包含:

1, 层级强化学习: hierarchical reinforcement learning.

对于复杂世界的任务, 如做饭, 你在传授一个策略的时候,显然会把策略的整体分解为一些大的基本步骤, 而每个基本步骤又分为很多小步骤, 是为有层级的强化学习。

thegradient.pub/the-pro

2, 强化学习和因果推理:

强化学习的世界模型部分依赖于理解自身行为对世界的影响, 而这其中的内涵与因果推理密切相关。

Ha, David, and Jürgen Schmidhuber. "World models."arXiv preprint arXiv:1803.10122(2018).

3, 强化学习和好奇心

强化学习的核心是探索和收益的平衡, 而好奇心可以极大的增益强化学习agent的探索效率。

有的算法甚至直接给agent引入一个称为intrinsic motivation的指标, 引导它合理的利用好奇心作为内在动机更好的探索新的环境。

Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.

4, 强化学习与贝叶斯

强化学习的核心框架均建立在概率之上, 这些条件概率的计算必然包含先验的知识和新增加数据引起的增益。利用贝叶斯框架可以大大加快强化学习agent探索的效率, 其实一个经典的例子是解决躲避赌博机的thomas sampling方法。

5, 强化学习与进化算法的结合

这里最好的例子是阿尔法star, 通过很多网络组成的策略池, 迭代推倒最优策略,因此能够在星际争霸这种非完全信息马尔可夫游戏中超越人类。

总结:

突破当下人工强化学习的局限的核心之核心, 在于如何把有关世界结构的知识或规则, 嵌入到神经网络中, 供后续的强化学习使用。而对于这个问题背后的更根本的问题, 是知识或规则本身, 该如何去表达, 知识或规则的本质是什么。因此表征学习与强化学习, 是密不可分的两个过程。世界模型和深度网络加持都有助于解决表征问题, 而无论哪种方法都其实是冰山一角, 元强化学习, 多阶段强化学习, 多层级强化学习, 都从各个角度提出了可能的解决方法。

640?wx_fmt=jpeg

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

澜起科技云计算服务器_服务器严重缺货!云应用大爆发!云计算正强势起爆(附龙头)...

催化因素:这两天全国上千万企业、近两亿人开启在家办公模式。阿里、华为、腾讯等各大网络办公平台纷纷告急。对云服务的需求大增也让服务器生产企业开足马力,春节假期里,山东浪潮集团就接到了1500台服务器的订单。目前,多家软件服…

车险赔付率分析报告_车险有变!价格…

各位车友请注意!《商业车险综合示范条款(2020版征求意见稿)》于近日发布向社会公开征求意见从修订版条款的内容来看大幅删减了责任免除项目扩展了保险责任在最大化让利于消费者的同时努力提升消费者体验那么,此次修订版有哪些具体的亮点呢?一…

“众声喧哗”中的VR,谁来买单?

来源:VR每日必看未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网&…

.npy文件_Numpy库使用入门(六)文件的存取

ERNIE:BERT,你看到我的npy了吗,我记得我放在这个文件夹里的呀(」><)」BERT:就你还有npy?我还单着呢 ̄へ ̄ERNIE:你想什么呢?我指的是numpy储存数据的…

redis rua解决库存问题_如何解决高并发下的库存安全问题,没你想得那么复杂(附源码)...

一、 问题不知道大家该开发中有没有遇到这样的一个问题,在电影院购票或者去网上买东西的时候,比方说当年哪吒大电影出来的时候,那抢票相当火爆啊,一票难求,那购票系统的后台是如何保证观众能买到自己喜欢的票同时不用担…

AI 白皮书:赢家、输家

来源:云头条引言:纵观历史,对企业界而言改变游戏规则的始终是技术。制造商取代手艺人,工厂从制造商手里接过接力棒,自动化和遥测技术取代大部分重复性的人力劳动。从个人计算机到互联网和移动商务,在过去的…

python 首次登陆outlook 脚本_记Python“用户环境”的一次完美应用

在之前写过一篇关于虚拟环境使用的文章,但是还没有好好的介绍一下 Python 的用户环境,原因是自己一直没遇到要使用 用户环境 的使用场景,所以就一直懒得写。恰巧这两天,自己遇到了一个使用用户环境的体验可以完爆虚拟环境的案例&a…

今日头条、抖音推荐算法原理全文详解!

来源:运营大叔本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变…

星梦缘陈彦妃_浙江舟山80后女演员,2003年出演偶像剧《星梦缘》,还是专业模特...

陈彦妃,1984年2月4日出生于浙江省舟山市,中国内地影视女演员、流行乐歌手、模特。陈彦妃是一个真性情的女孩,在高中时期拍摄了偶像剧《星梦缘》,在这部戏中,陈彦妃基本上是本色出演,进入大学之后&#xff0…

python hstack_Python小白数据科学教程:NumPy (下)

点击“简说Python”,选择“置顶/星标公众号”福利干货,第一时间送达!本文作者:王圣元转载自:王的机器本文偏长(1.8w字),老表建议先收藏,然后转发朋友圈,然后吃饭、休闲时慢慢看&…

MATLAB并行实现的简单方法

此方法只是利用了matlab的设定,不需要额外知识。 众所周知,matlab是单线程的,但matlab的每个应用窗口都是一个线程,因此可以同时开启多个MATLAB跑程序,占满CPU的所有core。 例如处理多个文件的计算,单线程…

POJ 1631 nlogn求LIS

方法一&#xff1a; 二分 我们可以知道 最长上升子序列的 最后一个数的值是随序列的长度而递增的 &#xff08;呃呃呃 意会意会&#xff09; 然后我们就可以二分找值了&#xff08;并更新&#xff09; //By SiriusRen #include <cstdio> #include <cstring> #incl…

城市大脑与未来超级智能建设规范研究报告即将发布

来源&#xff1a;今日头条21世纪以来&#xff0c;特别是在2010年以来&#xff0c;前沿科技领域出现诸多“大脑”概念&#xff0c;企业界出现谷歌大脑&#xff0c;百度大脑&#xff0c;阿里大脑&#xff0c;360安全大脑&#xff0c;腾讯超级大脑等&#xff0c;产业界出现城市大脑…

练习图200例图纸讲解_【宅家数学课23】经典微课6:苏教版六年级下册比例尺典型例题选讲及练习(含答案)...

(截止日期&#xff1a;3月31日)学习过程1、点击观看经典微课&#xff1a;微课视频《比例尺》2、认真学习典型例题&#xff0c;完成下方练习题3、查看答案&#xff0c;在家长指导下批改&#xff0c;订正错误。苏教版小学数学六年级下册比例尺典型例题选讲及练习【考点分析】【例…

ajax datatype_Ajax的基本使用

Asynchronous javascript and xmlAjax的实现 : 基于一个对象XMLHttpRequest (如何获取?)步骤: 1. 获取ajax对象function getRequestObject() {if (window.XMLHttpRequest) {// 支持Opera, Safari, Mozilla, Chrome,Internet Explorer 7, and IE 8.return(new XMLHttpRequest()…

MATLAB画图详细教程

本文将详细介绍如何用matlab绘图并美化。 关于figure() 创建图窗窗口&#xff1a;figure() figure()的属性&#xff1a; Name&#xff1a;在标题栏显示的名称&#xff0c;接字符串&#xff0c;如Test Position&#xff1a;在电脑屏幕上的位置和大小&#xff0c;后接向量[l…

android 发送广播_从0系统学Android--5.2 发送广播

从0系统学Android--52 发送广播本系列文章目录&#xff1a;更多精品文章分类本系列持续更新中…. 初级阶段内容参考《第一行代码》5.3 发送自定义广播前面已经学习了如何接受广播了&#xff0c;下面来学习如何发送自定义广播&#xff0c;广播类型分为&#xff1a;标准广播和有序…

31页官方PPT,回顾史上最大芯片WSE:科技的壮丽美感!

来源&#xff1a;芯潮2019年8月20日&#xff0c;在Hot Chips顶会上&#xff0c;发布了一款震惊世界的芯片&#xff1a;全球有史以来最大的计算机芯片wafer-scale engine &#xff08;WSE&#xff09;问世&#xff01;这款巨型芯片来自美国创企Cerebras&#xff0c;每边约22厘米…

Node.js npm 详解

一、npm简介 安装npm请阅读我之前的文章Hello Node中npm安装那一部分&#xff0c;不过只介绍了linux平台&#xff0c;如果是其它平台&#xff0c;有前辈写了更加详细的介绍。 npm的全称&#xff1a;Node Package Manager. ####&#xff08;1&#xff09;通俗的理解 其实从字面意…

html怎么在图片上添加文字_Image J基础操作:给图片添加文字和标注

对图片添加标注和文字是科研图片处理中一个非常基础的操作,Image J也可以进行这方面的处理。 01利用描边和填充添加 在绘制好选区(几乎只会用到箭头工具)之后选择:Edit-Draw(描边,快捷键Ctrl+D),使用事先设定好的颜色和粗细进行绘制;也可以填充设定好的颜色Edit-Fill(填充…