Science:挑战传统理论,重塑联想学习概念

183b6953e4907ec935781c198fe56750.png

来源:brainnews

编译作者:Young(brainnews创作团队)

校审:Simon(brainnews编辑部)

学会根据环境线索预测奖赏对生存至关重要。人们认为,动物通过在结果偏离预期时更新预测来学习预测奖赏,而这种奖赏预测错误(RPEs)是由学习的关键控制者中脑边缘多巴胺系统发出的信号。然而,动物还可以通过学习奖励的回溯原因来推断预测,而不是从RPEs中学习前瞻性预测。

简单的说,如果动物知道它刚刚收到的刺激是有意义的(例如,奖励),它可以回顾记忆来推断其原因。鉴于多巴胺在学习中的中心作用,多巴胺可能会引导回溯性因果学习,而不是传递RPE。

16c7af888e95e35701b3b0e7846c334d.jpeg

近日,美国加利福尼亚大学神经病学系Vijay Mohan K Namboodiri助理教授研究团队在Science上发表研究,开发了一种用于回顾性因果学习的算法,发现中边缘多巴胺的释放传递了因果关联,而不是RPE,从而挑战了奖赏学习中的主导理论。重塑了联想学习的概念和生物学框架。

e5b17a8bf7586bcc159831697aeefb15.jpeg

回顾性因果学习算法

学习前瞻性预测的一个简单方法是,每当提示后的结果偏离预测时,更新预测[Fig.1A,B]。这种违反奖赏预测的行为通常被称为奖赏预测错误(RPEs)。时间差强化学习(TDRL)模型扩展了Rescorla Wagner模型,以解释线索结果延迟,是最广泛接受的奖励学习模型。

TDRL RPE已成为多巴胺作为行为学习关键调节器的主导理论。研究人员提出了一种因果推断算法,该算法通过测量线索是否比偶然预期更先于奖赏,从而来推断线索是否是奖励的原因[Fig.1C]。

71e389fd1adbdcac40a56da2b2433389.jpeg

Figure 1 一种揭示环境中因果关联的算法

未预测奖赏测试

本研究算法提出,有意义的因果目标通过调整后的因果关系净偶然性(ANCCR)来发出信号。因此,RPE假说预测多巴胺对蔗糖的反应会随着重复经历而减少,而ANCCR假说则预测反应会增加。

结果观察到的中脑边缘多巴胺释放与ANCCR一致,但与RPE不一致[Fig.2D,E]。每只动物都表现出增加的蔗糖反应,达到高阳性渐近线。这与RPE完全不一致:因为RPE是收到的和预测的奖励之间的差异,它不能高于未预测的奖励。

2078ce5099eaa29b5110b413d5d69ddb.jpeg

Figure 2 多巴胺对非预期回报的反应动力学与ANCCR一致,但与TDRL RPE不一致

线索奖励学习测试

在线索奖励学习过程中,RPE和ANCCR都预测多巴胺对线索的反应在学习早期会很低,而在学习后期会很高。结果发现学习期间观察到的多巴胺能动力学与ANCCR一致,但与RPE不一致:早在动物表现出预期舔之前,多巴胺对CS+的反应就很明显[Fig.3A,B]。

接下来测试了学习线索奖励关联的消失。学习联想的消失不会导致原始联想的消失。TDRL在消散后学习到零线索值,从而预测多巴胺能线索反应将随着行为学习而减少到零。而ANCCR与RPE所预测的不同,在动物停止对线索的行为反应后,多巴胺线索反应仍然显著积极[Fig.3J-L]。

bbeab10c708e70f9933e2a3215a11b0d.jpeg

Figure 3 线索奖赏学习期间多巴胺反应的动力学与ANCCR一致,但与TDRL RPE不一致

测试中的反向传播

TDRL RPE的一个关键假设是多巴胺反应驱动前一状态的价值学习。研究人员测试了这一中心假设的三个预测。第一个是,在获得微量条件反射的过程中,多巴胺的反应从奖励前一刻开始系统性地反向传播。与TDRL RPE不同,ANCCR不进行这样的预测,因为ANCCR中的延迟周期没有被分解成状态[Fig.4A]。

第二个是,在顺序调节期间(cue1预测 cue2预测 奖励),多巴胺反应首先增加到cue2,然后增加到cue1。ANCCR反而预测,当得知cue2是由cue1引起的时,多巴胺对两种线索的反应会一起增加,随后会分化[Fig.4C]。

第三个,在连续条件调节期间,人为地抑制cue2释放多巴胺以获得奖励,将阻止cue1反应的学习。相反,在ANCCR中抑制cue2反应只会阻止cue1-cue2关联学习,并且不阻止cue1响应的学习[Fig.4E-H]。

02f5d9913509ddbf86857b6da90927a1.jpeg

Figure 4 学习期间多巴胺信号无反向传播

结 论

NAcc中中脑边缘多巴胺释放的动力学在大量实验中与TDRL RPE不一致,但仍与因果学习算法一致。这里提出的算法通过测试刺激是否先于偶然预期的奖励,并将这种关联转换为预期预测。

参考文献

67469641fbe92855f50b3a29f642a47e.gif

Jeong, Huijeong et al. “Mesolimbic dopamine release conveys causal associations.” Science (New York, N.Y.), eabq6740. 8 Dec. 2022, doi:10.1126/science.abq6740

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

6cf0ba76c5463bfa3d434000bc2d7e05.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心,你们的小夕已经满血复活啦!小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映,ta若能完成这个系列的阶段三,就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》,…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

2019-暑期实习生-自然语言处理算法岗-面试题

随着三月初蚂蚁金服内推开启&#xff0c;整个暑期实习生招聘大幕也正式打开&#xff0c;这一场从三月初持续到之后五月的笔试面试过程&#xff0c;确实让笔者真真切切的感受到基础的重要性&#xff0c;面试和笔试不仅从机器学习&#xff0c;自然语言处理&#xff0c;数据结构与…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库&#xff0c;一般选择web of science 核心文集 第二步&#xff1a;在更多设置中选择web of science 第三步&#xff1a;点击被引频次后面的数字 第四部&#xff1a;点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项&#xff1a;web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想&#xff0c;被陶哲轩和他的博士后破解了&#xff01;此前陶哲轩在博客上发了个小预告&#xff0c;就已经有不少人赶来围观&#xff1a;看起来是个大新闻。现在&#xff0c;不少人期待的正式版论文&#xff0c;终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库&#xff08;Chinese Science Citation Database&#xff0c;简称CSCD&#xff09; 2 3 4 5 6点击详细信息进入下面的页面&#xff0c;可判断文档是否属于核心期刊&#xff01;

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐&#xff1a;“学姐学姐&#xff0c;EM算法是什么呢&#xff1f;”学姐回答&#xff1a;“EM算法啊&#xff0c;就是解决包含隐变量的参数估计问题。”小夕&#xff1a;然后小夕去问一位做工程的学长&#xff1a;“学长学长&#xff0c;EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者&#xff1a;葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖&#xff0c;被一些人误解为证明了量子纠缠现象。实际上&#xff0c;包括爱因斯坦本人都承认量子纠缠&#xff0c;关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;上&#xff09;》中&#xff0c;小夕用优&#xff08;恐&#xff09;雅&#xff08;怖&#xff09;的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面&#xff0c;从三月份开始找实习到现在正好两个月&#xff0c;这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司&#xff0c;本着从小公司…

机器学习助力更好理解水的行为

来源&#xff1a;科技日报作者&#xff1a;刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 &#xff08;记者刘霞&#xff09;美国一个研究团队在最新一期《物理评论快报》上刊发论文称&#xff0c;他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明&#xff1a;本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;上&#xff09;》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;下&#xff09;》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

12.20今日头条实习面试总结-算法工程师

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/John_xyz/article/details/78884425 </div><div id"content_views" class"markdown_views prism-github-gist"><!-- flowchart 箭…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看&#xff0c;人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数&#xff0c;人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果&#xff0c;你不小心迷恋上了小夕… 路人某&#xff1a;“没有如果” 捕获小夕的游戏 如果现实世界中&#xff0c;迷恋上小夕以后&#xff0c;你想捕获小夕。那么发现从上帝视角来看的话&#xff0c;你有下面好多条路几条路达成目标(&#xffe3;∇&#xffe3;) 然而你并…