来源:脑与心智毕生发展研究中心
原文作者:Kate Nussenbaum,Alexandra O. Cohen
原文编辑:David Sheinberg
小小评阅人:Brown University Pre-College Stem I Program
中文翻译版权:脑与心智毕生发展研究中心
中文翻译:刘斯漫
中文编辑:范雪如
中文审校:左西年
如果每次你看到美丽的日落,都会拍照发到朋友圈里,最初的几张照片获得了大量的“赞”,但有一天你发布的照片只有少数人“赞”,那么下次你还会发吗?每做出选择,我们会通过观察接下来发生了什么来了解周围的世界,从而影响未来的选择。神经科学研究人员通过用强化学习模型来解释人们如何从过去做出选择的结果中进行学习。在这篇文章中,我们将为大家描述在现实世界中可能会使用强化学习的情境,数学方程如何帮助我们理解这个过程,以及我们的大脑如何从经验中学会做出正确选择。
什么是强化学习?
利用过去的经验做出可能产生更好结果的选择,这个过程称为强化学习。让我们回到前文描述的发布日落照片的例子:第一次发布照片时,你收到很多“赞”,这让你非常开心,这个积极体验让你更有可能继续发布照片;你发布了第二张照片,得到了同样多的“赞”;你发了第三个,“赞”源源不断地涌来……然而有一天,你发布了一张你认为不错的照片,却几乎没有收到“赞”——相反,有人在你的照片下写了一条恶意评论。突然之间,并不是所有你发布日落照片的反应都是积极的。这时你需要更新所学到的,把收到刻薄评论的负面经历考虑进去,下次你就不太可能这么做了。
选择产生的结果可以被看作是强化信号,如果我们做了一个选择,并经历了一些好的事情(一个积极的强化信号)我们更有可能在未来重复这个选择;但是如果我们做了一个决定,经历了一些不好的事情,下次可能就会选择一个不同的选项——这就是强化学习的过程。
为什么要用数学方程来理解学习和决策?
一般来说,积极的经历(比如在社交媒体上收到很多“赞”)会让我们对这件事的回报预期增加,而消极的经历(比如收到恶意评论)会让我们的预期降低。然而,这种一般性描述并不能帮助我们对某段经历会在多大程度上改变预期做出具体的预测。例如,假设你发布了九张获得许多“赞”的照片,和一张收到恶意评论的照片,一个恶意评论能在多大程度上改变你对“发布一张照片”产生回报的估计?你以后发布类似照片的可能性会降低多少?如果没有一个数学方程来描述这个学习过程,我们就不能回答这些问题。
Rescorla–Wagner模型
多年来,研究人员提出了不同的数学方程(或称为“计算模型”)来解释人们如何从积极和消极的经历中学习,Rescorla–Wagner模型就是一个例子[1,2]。
伊凡·巴甫洛夫(Ivan Pavlov)曾经做过一系列著名的实验。在一个实验中,他会反复按铃,然后给狗喂食。起初狗并没有把食物奖励与铃声联系起来,但他发现重复几次这个过程后,即使没有食物给狗吃,狗听到铃声时也会开始流口水。这些发现表明,随着时间的推移,狗学会了将铃声与食物联系起来,这样每当它听到铃声时,就会预料到食物的到来,并开始分泌唾液。正如前面提到的,学习通常是一个渐进的过程,这意味着每次巴甫洛夫的狗听到铃声并得到食物时,铃声和食物联系会更紧密一点,下次它听到铃声时就更容易流口水。
我们能预测狗听到铃声时对食物的渴望有多强烈吗?我们能知道每次经历后狗的预期如何变化吗?研究人员罗伯特·雷斯科拉(Robert Rescorla)和艾伦·瓦格纳(Allan Wagner)想用一个能准确反映学习过程的数学方程来回答这些问题。因此他们首先需要了解,动物在什么情况下学会了在它们的经历之间建立联系。
他们用小鼠做了很多实验,在一些实验中,小鼠会听到一种声音,然后受到一次电击。正常情况下的小鼠会在笼子里跑来跑去,它们并不喜欢被电击,所以当它们认为即将被电击时,往往会吓呆。小鼠把声音和电击联系在一起的强度,可以通过它们听到声音时被吓呆的程度来衡量。例如,当小鼠第一次听到这种声音时,它不会感到惊吓,所以它会继续正常地在笼子里走动;但如果它听到声音,然后受到电击,小鼠就会开始知道声音和电击是有联系的,下次再听到这种声音时,它们就会动得更少,吓呆得程度更高。
雷斯科拉和瓦格纳注意到:在早期,当小鼠第一次学习声音和电击之间的关系时,它们在吓呆的频率和时间上表现出更大的变化;在多次电击后,它们达到了一种更稳定的行为模式——继续吓呆,但每次电击后,它们吓呆的程度只增加一点点。
这个观察引导雷斯科拉和瓦格纳发现强化学习是由惊奇驱动的,换句话说,当动物遇到意想不到的东西时,它们能学到更多。他们把学习过程中的这种意外称为“预测误差”,代表了动物对将要发生的事情的预测与实际情况的差异。例如,当巴甫洛夫的狗第一次听到铃声时,它没有理由指望得到任何食物;当它收到食物时,会感到惊奇,出现了一个很大的预测误差,因为实际发生的事件(食物)与预测的事件(什么也没)有很大的不同。这个预测误差让它们知道当听到铃声时可能会得到食物,当再次听到铃声时确实收到了食物,它的预测误差会变低,因为对结果不那么惊讶了;当它继续听到铃声并收到食物时,对铃声预测食物的期望值继续增加,但没有前几次增加得多。
我们一直都在经历“预测误差”,例如你可能认为自己不喜欢吃西兰花,但是有一天,你决定试一试并发现它真的很好吃。在这种情况下,你吃西兰花的经验与你对自己“不喜欢吃西兰花”的预测不同——你会经历一个预测误差,这会让你对西兰花有新的了解,改变你对西兰花的看法。
没有预测误差,我们就不能通过强化学到任何东西。例如你可能喜欢吃披萨,有一天你在放学回家的路上停下来买披萨,它依旧是那么美味!在这种情况下,你吃美味披萨的体验和你的预测没有什么不同——你不会经历预测错误,所以你不会学到任何东西:你会继续认为披萨很好吃。
雷斯科拉和瓦格纳用一个数学方程来描述这个学习过程:动物将某物与奖励联系在一起(比如钟与食物的联系)的强度增加通过计算动物得到的奖励与动物预计将得到的奖励之间的差异来计算的(图1)。这个方程可以告诉我们动物对两件事的联系有多强,或者某个决定(比如在发布一张照片)可能带来多少奖赏。
图1. 预测误差驱动学习
这个表格展示了狗的预测和结果的经验如何影响它的学习。狗对铃声和食物的联系增加(“Change in Association”)取决于听到铃声时收到了多少食物(“Outcome”)和预期收到多少食物(“Prediction”)之间的差异,这种差异称为“奖励预测误差”(“Reward Prediction Error”)。
除了预测误差外,方程中还有一个重要的部分叫做“学习率”。学习率告诉我们动物在每次经历之后更新估计的程度,我们可以把学习率看作是每只动物学习的速度——如果一个动物有很高的学习率,那么当它遇到预测误差时,会在很大程度上更新它的估计;如果一个动物的学习率较低,那么它可能在很大程度上依赖于过去的所有经验,每次经历预测错误时,它的估计只会发生一点点变化。
大脑如何从强化中学习?
强化学习模型在帮助我们理解大脑如何学习方面很有用。大脑由大约1000亿个神经元组成,神经元会释放一种叫做神经递质的化学物质,帮助彼此之间互相传递信息。多巴胺是大脑中一种重要的神经递质,多巴胺能神经元会对我们在环境中经历的奖赏做出反应。
科学家们已经证明多巴胺能神经元的活动在代表大脑预测误差方面起着关键作用。在学习之后,多巴胺能神经元会对一些预测奖励的东西(比如铃声)做出反应,表现出更强的活动。如果动物希望得到奖励而没有得到,多巴胺能神经元会减少它们的活动。我们可以把多巴胺看作是一种预测误差的信号——多巴胺能神经元的活动发出信号,表明你认为自己会得到多少奖励与你实际得到多少奖励之间存在差异[3]。这有助于我们从强化中学习,并最终帮助我们利用以前的经验做出自己认为会带来奖赏的选择(图2)。
图2. 狗在学习之前和之后的大脑活动
多巴胺能神经元对奖励和奖励预期做出反应。图中的点展示了多巴胺能神经元随时间的活动,点上面的线的高度代表了在那个特定时间上点的数量。当狗学会把铃声和食物联系起来后,多巴胺能神经元就会对一些预测奖励的东西做出反应,比如铃声(左下角)。注意,在这种情况下,多巴胺能神经元不会对食物本身做出反应,因为这不再令它们感到惊奇;然而如果预期的奖励没有出现,多巴胺能神经元就会变得不那么活跃(右下角)[3]。
大脑的许多不同部位都表现出类似于多巴胺能神经元预测误差信号的活动模式,其中的一个部位是位于大脑深处的基底神经节。基底神经节不仅对学习很重要,而且对控制我们的运动和习惯也很重要。基底神经节最大的部分是纹状体,是释放多巴胺的主要部位,也是控制奖赏反应的大脑系统的核心部分。
许多动物和人类的研究表明纹状体的活动与预测误差有关,在强化学习中起着重要作用[4]。与预测误差相关的大脑活动模式也可以在参与决策的额叶皮质区域看到。纹状体和额叶皮层之间有许多相互联系,是帮助我们快速完成强化学习的关键,这些联系可能解释了我们如何能够快速地从经验中学习,并用这些知识来帮助我们进行未来的决策(图3)。
图3. 参与强化学习的大脑区域
位于大脑前部(前额后方)的额叶皮质(左图)在决策过程中起着重要作用,而纹状体(右图)则表现出与预测误差相关的活动。想要进一步观察3D大脑可以访问http://www.brainfacts.org/3d-brain。
大脑由许多不同的部分组成,它们共同工作,帮助我们思考和做复杂的事情。科学家们仍在继续研究纹状体、额叶皮质和其他大脑区域如何协同工作帮助我们做出最好的决定,还有许多数学模型能帮助我们理解学习以及学习是如何在大脑中发生的。下次当你考虑是否要发布一张照片时,记住你的大脑正在快速地解决一个数学问题,甚至在你不知道的情况下!
术语表
计算模型(Computational Model):计算模型是一个复杂过程的简单数学表示,本文所描述的强化学习模型是一个可以表示某些类型的学习所涉及的思维过程的方程。
预测误差(Prediction Error):预测误差代表了动物的预期与实际之间的差距。
学习率(Learning Rate):动物的学习率表示它根据新信息更新信念的速度。
多巴胺(Dopamine):多巴胺是大脑中一种特殊的被称为神经递质的化学物质,通常与奖赏有关。
参考文献
[1] Rescorla, R. 1998. Pavlovian conditioning. Am Psychol. 43:151–60.
[2] Rescorla, R., and Wagner, A. R. 1972. “A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement,” in Classical Conditioning II: Current Research and Theory, eds A. H. Black and W. F. Prokasy (New York, NY: Appleton-Century-Crofts). p. 64–99.
[3] Schultz, W., Dayan, P., and Montague, P. R. 1997. A neural substrate of prediction and reward. Science 275:1593–9.
[4] Dayan, P., and Niv, Y. 2008. Reinforcement learning: the good, the bad and the ugly. Curr Opin Neurobiol. 18:185–96.
原文
Nussenbaum K and Cohen A (2018) Equation Invasion! How Math can Explain How the Brain Learns. Front. Young Minds. 6:65.
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”