【Brain】脑智前沿科普|用数学解释大脑学习的过程

29c4b57281ce3471303d18aceb7c3c94.png

来源:脑与心智毕生发展研究中心

原文作者:Kate Nussenbaum,Alexandra O. Cohen

原文编辑:David Sheinberg

小小评阅人:Brown University Pre-College Stem I Program

中文翻译版权:脑与心智毕生发展研究中心

中文翻译:刘斯漫

中文编辑:范雪如

中文审校:左西年

如果每次你看到美丽的日落,都会拍照发到朋友圈里,最初的几张照片获得了大量的“赞”,但有一天你发布的照片只有少数人“赞”,那么下次你还会发吗?每做出选择,我们会通过观察接下来发生了什么来了解周围的世界,从而影响未来的选择。神经科学研究人员通过用强化学习模型来解释人们如何从过去做出选择的结果中进行学习。在这篇文章中,我们将为大家描述在现实世界中可能会使用强化学习的情境,数学方程如何帮助我们理解这个过程,以及我们的大脑如何从经验中学会做出正确选择。

    什么是强化学习?

利用过去的经验做出可能产生更好结果的选择,这个过程称为强化学习。让我们回到前文描述的发布日落照片的例子:第一次发布照片时,你收到很多“赞”,这让你非常开心,这个积极体验让你更有可能继续发布照片;你发布了第二张照片,得到了同样多的“赞”;你发了第三个,“赞”源源不断地涌来……然而有一天,你发布了一张你认为不错的照片,却几乎没有收到“赞”——相反,有人在你的照片下写了一条恶意评论。突然之间,并不是所有你发布日落照片的反应都是积极的。这时你需要更新所学到的,把收到刻薄评论的负面经历考虑进去,下次你就不太可能这么做了。

选择产生的结果可以被看作是强化信号,如果我们做了一个选择,并经历了一些好的事情(一个积极的强化信号)我们更有可能在未来重复这个选择;但是如果我们做了一个决定,经历了一些不好的事情,下次可能就会选择一个不同的选项——这就是强化学习的过程。

    为什么要用数学方程来理解学习和决策?

一般来说,积极的经历(比如在社交媒体上收到很多“赞”)会让我们对这件事的回报预期增加,而消极的经历(比如收到恶意评论)会让我们的预期降低。然而,这种一般性描述并不能帮助我们对某段经历会在多大程度上改变预期做出具体的预测。例如,假设你发布了九张获得许多“赞”的照片,和一张收到恶意评论的照片,一个恶意评论能在多大程度上改变你对“发布一张照片”产生回报的估计?你以后发布类似照片的可能性会降低多少?如果没有一个数学方程来描述这个学习过程,我们就不能回答这些问题。

    Rescorla–Wagner模型

多年来,研究人员提出了不同的数学方程(或称为“计算模型”)来解释人们如何从积极和消极的经历中学习,Rescorla–Wagner模型就是一个例子[1,2]。

伊凡·巴甫洛夫(Ivan Pavlov)曾经做过一系列著名的实验。在一个实验中,他会反复按铃,然后给狗喂食。起初狗并没有把食物奖励与铃声联系起来,但他发现重复几次这个过程后,即使没有食物给狗吃,狗听到铃声时也会开始流口水。这些发现表明,随着时间的推移,狗学会了将铃声与食物联系起来,这样每当它听到铃声时,就会预料到食物的到来,并开始分泌唾液。正如前面提到的,学习通常是一个渐进的过程,这意味着每次巴甫洛夫的狗听到铃声并得到食物时,铃声和食物联系会更紧密一点,下次它听到铃声时就更容易流口水。

我们能预测狗听到铃声时对食物的渴望有多强烈吗?我们能知道每次经历后狗的预期如何变化吗?研究人员罗伯特·雷斯科拉(Robert Rescorla)和艾伦·瓦格纳(Allan Wagner)想用一个能准确反映学习过程的数学方程来回答这些问题。因此他们首先需要了解,动物在什么情况下学会了在它们的经历之间建立联系。

他们用小鼠做了很多实验,在一些实验中,小鼠会听到一种声音,然后受到一次电击。正常情况下的小鼠会在笼子里跑来跑去,它们并不喜欢被电击,所以当它们认为即将被电击时,往往会吓呆。小鼠把声音和电击联系在一起的强度,可以通过它们听到声音时被吓呆的程度来衡量。例如,当小鼠第一次听到这种声音时,它不会感到惊吓,所以它会继续正常地在笼子里走动;但如果它听到声音,然后受到电击,小鼠就会开始知道声音和电击是有联系的,下次再听到这种声音时,它们就会动得更少,吓呆得程度更高。

雷斯科拉和瓦格纳注意到:在早期,当小鼠第一次学习声音和电击之间的关系时,它们在吓呆的频率和时间上表现出更大的变化;在多次电击后,它们达到了一种更稳定的行为模式——继续吓呆,但每次电击后,它们吓呆的程度只增加一点点。

这个观察引导雷斯科拉和瓦格纳发现强化学习是由惊奇驱动的,换句话说,当动物遇到意想不到的东西时,它们能学到更多。他们把学习过程中的这种意外称为“预测误差”,代表了动物对将要发生的事情的预测与实际情况的差异。例如,当巴甫洛夫的狗第一次听到铃声时,它没有理由指望得到任何食物;当它收到食物时,会感到惊奇,出现了一个很大的预测误差,因为实际发生的事件(食物)与预测的事件(什么也没)有很大的不同。这个预测误差让它们知道当听到铃声时可能会得到食物,当再次听到铃声时确实收到了食物,它的预测误差会变低,因为对结果不那么惊讶了;当它继续听到铃声并收到食物时,对铃声预测食物的期望值继续增加,但没有前几次增加得多。

我们一直都在经历“预测误差”,例如你可能认为自己不喜欢吃西兰花,但是有一天,你决定试一试并发现它真的很好吃。在这种情况下,你吃西兰花的经验与你对自己“不喜欢吃西兰花”的预测不同——你会经历一个预测误差,这会让你对西兰花有新的了解,改变你对西兰花的看法。

没有预测误差,我们就不能通过强化学到任何东西。例如你可能喜欢吃披萨,有一天你在放学回家的路上停下来买披萨,它依旧是那么美味!在这种情况下,你吃美味披萨的体验和你的预测没有什么不同——你不会经历预测错误,所以你不会学到任何东西:你会继续认为披萨很好吃。

雷斯科拉和瓦格纳用一个数学方程来描述这个学习过程:动物将某物与奖励联系在一起(比如钟与食物的联系)的强度增加通过计算动物得到的奖励与动物预计将得到的奖励之间的差异来计算的(图1)。这个方程可以告诉我们动物对两件事的联系有多强,或者某个决定(比如在发布一张照片)可能带来多少奖赏。

fc9f17150352935f4aa4ee33401f2ec2.png

图1. 预测误差驱动学习

这个表格展示了狗的预测和结果的经验如何影响它的学习。狗对铃声和食物的联系增加(“Change in Association”)取决于听到铃声时收到了多少食物(“Outcome”)和预期收到多少食物(“Prediction”)之间的差异,这种差异称为“奖励预测误差”(“Reward Prediction Error”)。

除了预测误差外,方程中还有一个重要的部分叫做“学习率”。学习率告诉我们动物在每次经历之后更新估计的程度,我们可以把学习率看作是每只动物学习的速度——如果一个动物有很高的学习率,那么当它遇到预测误差时,会在很大程度上更新它的估计;如果一个动物的学习率较低,那么它可能在很大程度上依赖于过去的所有经验,每次经历预测错误时,它的估计只会发生一点点变化。

    大脑如何从强化中学习?

强化学习模型在帮助我们理解大脑如何学习方面很有用。大脑由大约1000亿个神经元组成,神经元会释放一种叫做神经递质的化学物质,帮助彼此之间互相传递信息。多巴胺是大脑中一种重要的神经递质,多巴胺能神经元会对我们在环境中经历的奖赏做出反应。

科学家们已经证明多巴胺能神经元的活动在代表大脑预测误差方面起着关键作用。在学习之后,多巴胺能神经元会对一些预测奖励的东西(比如铃声)做出反应,表现出更强的活动。如果动物希望得到奖励而没有得到,多巴胺能神经元会减少它们的活动。我们可以把多巴胺看作是一种预测误差的信号——多巴胺能神经元的活动发出信号,表明你认为自己会得到多少奖励与你实际得到多少奖励之间存在差异[3]。这有助于我们从强化中学习,并最终帮助我们利用以前的经验做出自己认为会带来奖赏的选择(图2)。

dbc7cce2e0e7d01058615920571d1423.png

图2. 狗在学习之前和之后的大脑活动

多巴胺能神经元对奖励和奖励预期做出反应。图中的点展示了多巴胺能神经元随时间的活动,点上面的线的高度代表了在那个特定时间上点的数量。当狗学会把铃声和食物联系起来后,多巴胺能神经元就会对一些预测奖励的东西做出反应,比如铃声(左下角)。注意,在这种情况下,多巴胺能神经元不会对食物本身做出反应,因为这不再令它们感到惊奇;然而如果预期的奖励没有出现,多巴胺能神经元就会变得不那么活跃(右下角)[3]。

大脑的许多不同部位都表现出类似于多巴胺能神经元预测误差信号的活动模式,其中的一个部位是位于大脑深处的基底神经节。基底神经节不仅对学习很重要,而且对控制我们的运动和习惯也很重要。基底神经节最大的部分是纹状体,是释放多巴胺的主要部位,也是控制奖赏反应的大脑系统的核心部分。

许多动物和人类的研究表明纹状体的活动与预测误差有关,在强化学习中起着重要作用[4]。与预测误差相关的大脑活动模式也可以在参与决策的额叶皮质区域看到。纹状体和额叶皮层之间有许多相互联系,是帮助我们快速完成强化学习的关键,这些联系可能解释了我们如何能够快速地从经验中学习,并用这些知识来帮助我们进行未来的决策(图3)。

c986f390f5ec8fc5ad4a07384b244770.png

图3. 参与强化学习的大脑区域

位于大脑前部(前额后方)的额叶皮质(左图)在决策过程中起着重要作用,而纹状体(右图)则表现出与预测误差相关的活动。想要进一步观察3D大脑可以访问http://www.brainfacts.org/3d-brain。

大脑由许多不同的部分组成,它们共同工作,帮助我们思考和做复杂的事情。科学家们仍在继续研究纹状体、额叶皮质和其他大脑区域如何协同工作帮助我们做出最好的决定,还有许多数学模型能帮助我们理解学习以及学习是如何在大脑中发生的。下次当你考虑是否要发布一张照片时,记住你的大脑正在快速地解决一个数学问题,甚至在你不知道的情况下!

术语表

计算模型(Computational Model):计算模型是一个复杂过程的简单数学表示,本文所描述的强化学习模型是一个可以表示某些类型的学习所涉及的思维过程的方程。

预测误差(Prediction Error):预测误差代表了动物的预期与实际之间的差距。

学习率(Learning Rate):动物的学习率表示它根据新信息更新信念的速度。

多巴胺(Dopamine):多巴胺是大脑中一种特殊的被称为神经递质的化学物质,通常与奖赏有关。

参考文献

[1] Rescorla, R. 1998. Pavlovian conditioning. Am Psychol. 43:151–60.

[2] Rescorla, R., and Wagner, A. R. 1972. “A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement,” in Classical Conditioning II: Current Research and Theory, eds A. H. Black and W. F. Prokasy (New York, NY: Appleton-Century-Crofts). p. 64–99.

[3] Schultz, W., Dayan, P., and Montague, P. R. 1997. A neural substrate of prediction and reward. Science 275:1593–9.

[4] Dayan, P., and Niv, Y. 2008. Reinforcement learning: the good, the bad and the ugly. Curr Opin Neurobiol. 18:185–96.

原文

Nussenbaum K and Cohen A (2018) Equation Invasion! How Math can Explain How the Brain Learns. Front. Young Minds. 6:65.

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

00e794fe8e65fda7482fec466e166b5b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6 计算机组成原理第五章 中央处理器 CPU功能和结构 指令执行过程

文章目录1 CPU功能和基本结构1.1 CPU的功能1.2 运算器的基本结构1.3 控制器的基本结构1.4 CPU基本结构1.5 CPU的功能和基本结构小结2 指令周期和数据流2.1 指令执行过程2.2 指令周期流程2.3 指令周期的数据流-取指周期2.4 指令周期的数据流-间址周期2.5 指令周期的数据流-执行周…

7 计算机组成原理第五章 中央处理器 数据通路

文章目录1 数据通路的功能和基本结构单总线1.1 数据通路的功能1.2 数据通路-基本结构单总线2 数据通路-CPU内部单总线方式2.1 三种结构之间数据传送方式2.2 CPU内部单总线方式-例题3 专用通路3.1 专用数据通路方式3.2 专用数据通路方式-例题1 数据通路的功能和基本结构单总线 …

新研究表明 深层神经网络的功能存在局限性

GETTY IMAGES/IEEE SPECTRUM来源:IEEE电气电子工程师深度神经网络越来越有助于设计微芯片,预测蛋白质如何折叠,并在复杂游戏中胜过人们。然而,研究人员现在发现,这些人工智能系统的稳定性和准确度在理论上存在根本的限…

8 计算机组成原理第五章 中央处理器 控制器 硬布线控制器 微程序控制器

文章目录1 控制器的功能和工作原理1.1 控制器的结构和功能1.2 控制单元的输入和输出1.2.1 控制单元输入1.2.2 控制单元输出2 硬布线控制器2.1 CPU的控制方式2.2 安排微操作时序的原则(最短时间完成,参考)2.2.1 安排微操作时序-取指周期2.2.2 …

从特斯拉AI团队学到的九条方法论

来源:AI前线作者:Gary Chan译者:Sambodhi策划:李冬梅尽管 OpenAI 以其在自然语言处理上的成就而著称,而 DeepMind 则以强化学习和决策而闻名,特斯拉(Tesla)无疑是计算机视觉领域最有…

9 计算机组成原理第五章 中央处理器 指令流水线

文章目录1 指令流水线基本概念性能指标1.1 指令流水的定义1.1.1 指令分法1.1.2 指令执行时间1.2 流水线的表示方法1.3 流水线的性能指标2 指令流水线影响因素分类2.1 机器周期的设置2.2 影响流水线的因素2.2.1 数据相关(数据冲突)三种类型2.2.2 流水线影…

【赛迪智库】美国允许自动驾驶汽车取消方向盘对我国L4级自动驾驶的影响

来源:赛迪智库日前,美国国家公路交通安全管理局(NHTSA)发布了最终版的《无人驾驶汽车乘客保护规定》,其中对于由自动驾驶系统操作的车辆将不被要求配备传统方向盘等手动控制装置。新规有望促进美国L4级自动驾驶汽车商业…

10 计算机组成原理第六章 总线 总线的概念与分类 总线性能指标 总线仲裁 总线操作和定时 总线标准

文章目录1 总线的概念与分类1.1总线的定义1.2 总线的特点1.3 总线的特性1.4 总线的分类1.4.1 串行总线与并行总线1.4.2 按总线功能分类1.5 系统总线的结构1.6 总线概念与分类小结2 总线的性能指标2.1 性能指标分析2.2 总线性能指标小结3 总线仲裁3.1 总线仲裁的基本概念3.2 集中…

远程操控大脑?科学家成功利用近红外线控制老鼠的行为

GETTY IMAGES来源: IEEE电气电子工程师近日,科学家首次发明了一种非侵入性的方法来控制大脑回路——大脑中的神经元群,它们共同执行一项特定任务,成功完成了让实验室动物从远处自由移动。这项将近红外光射入大脑的新技术&#xff…

3 计算机组成原理第三章 存储系统 主存简单模型及寻址 半导体寄存器 存储器分类 主存与CPU连接 双口RAM和多模块寄存器

文章目录1 主存简单模型及寻址的概念1.1 主存储器1.1.1 存储器芯片的基本结构1.1.2 寻址2 半导体存储器2.1 半导体随机存取存储器2.1.1 DRAM的刷新2.1.2 SRAM的读周期2.1.3 SRAM的写周期2.1.4 RAM-易失性存储器2.2 ROM2.2.1 ROM分类2.2.2 半导体随机存储器小结3 存储器分类3.1 …

GPT-4 即将亮相?聊聊目前已知的一切

来源:AI 前线作者:Alberto RomeroGPT-3 首度亮相于大约两年之前的 2020 年 5 月,当时正值 GPT-2 发布的一年之后。而 GPT-2 距离最初 GPT 研究论文的发表也是相隔一年。如果这种周期性趋势继续保持不变,那 GPT-4 肯定也快跟大家见…

全职加入清华,丘成桐:为祖国、为全球数学界培养数学人才

王希勤校长为丘先生颁发聘书(照片来源:清华大学)来源:数据实战派4 月 20 日,清华大学宣布,“菲尔兹奖”首位华人得主丘成桐从哈佛大学退休,受聘清华大学讲席教授,将全职任教清华。清…

11 计算机组成原理第七章 输入/输出系统 I/O系统基本概念 外部设备

文章目录1 I/O系统基本概念1.1 I/O系统演变过程1.2 I/O系统基本组成1.3 I/O方式简介1.4 I/O系统基本概念小结2 外部设备1-输入设备 输出设备2.1 外部设备2.2 输入设备2.3 输出设备2.3.1 显示器2.3.2 打印机2.4 输出设备小结3 外部设备2-外存储器3.1 外存储器3.2 磁盘存储器3.2.…

重庆大学刘礼:因果学习与应用

来源:AI科技评论作者:刘礼编辑:维克多因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。4月9日,在AI TIME青年科学家——AI 2000学者专场论坛上,重庆大学大数据与软件学院教授刘礼…

12 计算机组成原理第七章 输入/输出系统 中断系统

文章目录1 中断的基本概念2 中断请求的分类3 中断请求标记4 中断判优-实现5 中断处理过程5.1 中断处理过程-中断隐指令5.2 中断处理过程-硬件向量法5.3 中断处理过程-中断服务程序6 单重中断与多重中断6.1 单重中断与多重中断比较7 中断屏蔽技术中断屏蔽字例题8 中断系统小结1 …

神经形态计算的物理学

来源: 集智俱乐部作者:张晓雨编辑:邓一雪 摘要神经形态计算(neuromorphic computing)从脑科学汲取灵感来为信息处理创造节能硬件,并能适应高度复杂的任务。2020年发表在 Nature Reviews Physics 上的一篇文…

13 计算机组成原理第七章 输入/输出系统 I/O方式 I/O接口

文章目录1 I/O接口1.1 接口定义1.2 I/O接口的功能(以单总线为例)1.3 I/O接口的基本结构1.4 接口与端口1.5 I/O端口及其编址1.6 I/O接口的类型1.7 I/O接口小结2 I/O方式2.1 I/O方式1-程序查询方式2.1.1 程序查询方式流程图2.1.2 程序查询方式接口2.1.3 程…

参与全球人工智能创新链竞争

来源:社科院工业经济研究所作者:郭朝先,中国社会科学院工业经济研究所研究员、产业组织研究室主任、中国社会科学院大学教授、博士生导师、中国可持续发展研究会理事;方澳,中国社会科学院大学经济学院。本文首发《经济…

4 计算机组成原理第三章 存储系统 高速缓冲存储器 虚拟存储器

文章目录1 局部性原理性能分析2 Cache工作原理(简易版)3 地址映射4 替换算法4.1 替换算法(十进制)举例4.2 Cache工作原理(加强版)4.2.1写策略-命中4.2.2 写策略-未命中4.3 替换算法(二进制&…

CICC城市大脑专委会获批成立,欢迎参加专委会共同探索和研究

CICC 城市大脑专委会中国指挥与控制学会(CICC)是经国家民政部正式注册的我国指挥与控制科学技术领域的国家一级学会,是全国性科技社会组织;是中国科学技术协会的正式团体会员,接受中国科学技术协会的直接领导&#xff…