强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类

aeca2b3118832c130832f18a409ca56b.jpeg来源:新智元

编辑:如願

【新智元导读】本文介绍了基于模型的和无模型的两种强化学习。用人类和动物的学习方式进行举例,讲述了两种强化学习类型的起源、区别以及结合。

谈到强化学习,很多研究人员的肾上腺素便不受控制地飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。

强化学习算法有很多不同的类型,但主要分为两类:「基于模型的」和「无模型的」。

在与TechTalks的对话中,神经科学家、 「智能的诞生」一书的作者Daeyeol Lee分别讨论了人类和动物强化学习的不同模式、人工智能和自然智能,以及未来的研究方向。

dc436bc6d5b439120106fde269b19d46.jpeg

无模型的强化学习

19世纪后期,心理学家Edward Thorndike提出的「效应定律」成为了无模型强化学习的基础。

Thorndike提出,在特定情境中具有积极影响的行为,在该情境中更有可能再次发生,而产生负面影响的行为则不太可能再发生。

b83c42afc06ca482f8890e12efdbc601.jpeg

Thorndike在一个实验中探索了这一「效应定律」。

他把一只猫放在一个迷宫盒子中,并测量猫从盒中逃脱所需的时间。为了逃脱,猫必须操作一系列小工具,如绳子和杠杆。Thorndike观察到,当猫与谜盒互动时,它学会了有助于逃跑的行为。随着时间的推移,猫逃离盒子的速度越来越快。

Thorndike的结论是,猫可以从其行为提供的奖励和惩罚中进行学习。

「效应定律」后来为行为主义铺平了道路。行为主义是心理学的一个分支,试图从刺激和反应的角度来解释人类和动物的行为。

「效应定律」也是无模型强化学习的基础。在无模型强化学习中,通过主体感知世界,然后采取行动,同时衡量奖励。

ce80c0f35ef036b90b46d30af7527d18.jpeg

在无模型强化学习中,并不存在直接的知识或世界模型。RL代理必须通过反复试验,直接去体验每个动作的结果。

基于模型的强化学习

Thorndike的「效应定律」一直流行到20世纪30年代。当时另一位心理学家Edward Tolman在探索老鼠如何快速学会走迷宫时发现了一个重要的见解。在他的实验中,Tolman意识到动物可以在没有强化的情况下了解他们的环境。

0b2782aa82af9fc5d523ccf63cad9d2c.jpeg

例如,当一只老鼠在迷宫中被放出来时,它会自由地探索隧道,并逐渐了解环境的结构。如果随后将这只老鼠重新放进相同的环境,并提供强化信号,如寻找食物或寻找出口,那么它可以比没有探索过迷宫的动物更快地到达目标。

Tolman称之为「潜在学习」,这成为基于模型的强化学习的基础。

「潜在学习」使动物和人类对他们的世界形成一种心理表征,在他们的头脑中模拟假设的场景,并预测结果。

57dfa574daddf58fda8acb1738b3688d.jpeg

基于模型的强化学习的优点是它消除了agent在环境中进行试错的需要。

值得强调的一点是:基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的人工智能系统方面尤其成功,可能的原因是这些游戏的环境是确定的。

5e04aa8c348d0afd723e102ab7e2bce0.jpeg

基于模型 VS 无模型

通常来说,基于模型的强化学习会非常耗时,在对时间极度敏感的时候,可能会发生致命的危险。

Lee说:「在计算上,基于模型的强化学习要复杂得多。首先你必须获得模型,进行心理模拟,然后你必须找到神经过程的轨迹,再采取行动。不过,基于模型的强化学习不一定就比无模型的RL复杂。」

当环境十分复杂时,倘若可以用一个相对简单的模型(该模型可以快速获得)进行建模,那么模拟就会简单得多,而且具有成本效益。

b6ba716af0c2b19399cb7f53dced1f94.gif

多种学习模式

其实,无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题,它都有可能是同时使用基于模型和无模型的强化学习,甚至可能更多形式的学习。

神经科学的研究表明,人类和动物都有多种学习方式,而大脑在任何特定时刻都在这些模式之间不断切换。

最近几年,人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。

加州大学圣地亚哥分校的科学家最近的研究表明,将无模型强化学习和基于模型的强化学习结合起来,可以在控制任务中取得卓越的表现。

Lee表示:「如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,它根据棋盘配置学习状态值,这基本上是无模型的 RL,但它同时也进行基于模型的前向搜索。」

尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。

Lee说:「我认为我们的大脑是一个学习算法的复杂世界,它们已经进化到可以处理许多不同的情况。」

除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使是在它们没有积极参与决策的情况下。

心理学家Daniel Kahneman表示:「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」

97f72830ffcfc6de60bafb675e799570.jpeg

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置,以确保它们以具有成本效益的方式学习正确的东西。

数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置,同时使用尽可能少的数据。

归纳偏置可以理解为,从现实生活观察到的现象中,总结出规则,然后对模型做一定的约束,从而可以起到模型选择的作用,即从假设空间中选择出更符合现实规则的模型。

Lee说:「我们从环境中获得的信息非常少。使用这些信息,我们必须进行概括。原因是大脑存在归纳偏置,并且存在可以从一小组示例中概括出来的偏置。这是进化的产物,越来越多的神经科学家对此感兴趣。」

然而,虽然归纳偏置在物体识别任务中很容易理解,但在构建社会关系等抽象问题中就变得晦涩难懂。

未来,需要我们了解的还有很多~~~

参考资料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

61df6884e5821d3a4802a6d5400924f0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Science | 破解60年难题!中科大张智/安医大陶文娟等发现声音能镇痛的潜在原因...

来源:FUTURE | 远见 选编:闵青云声音——包括音乐和噪音——可以减轻人类的疼痛,但潜在的神经机制仍然未知。 近日,中国科学技术大学张智、安徽医科大学陶文娟及国家卫生研究院 (NIH)Liu Yuanyuan共同通讯在Science发表题为「Soun…

基础研究的高风险导向型范式,助力“从0到1”的创新

来源:深究科学作者:吴家睿,中科院生化与细胞研究所原文首发《生命科学》2022年第34卷第6期以自由探索为主的基础研究和针对实际目标的应用研究是人们熟悉的两种科研活动形态。然而,美国国防部高级研究计划局(DARPA&…

基于元学习的红外弱小点状目标跟踪算法

基于元学习的红外弱小点状目标跟踪算法 人工智能技术与咨询 昨天 本文来自《激光技术》,作者热孜亚艾沙等 引言 红外点状目标的跟踪是红外搜索和跟踪(infrared search and track, IRST)系统中的关键技术之一[1],在红外目标跟踪、遥感制图等多个方面占…

鄂维南:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题...

来源:科学智能AISI北京时间2022年7月8日晚上22:30,鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenary talk)。今天我们带来鄂老师演讲内容的分享。鄂老师首先分享了他对机器学习数学本质的理解(函数逼近、概率分布的逼近与采样、…

2 小时写了篇论文,凭什么 GPT-3 不配拥有姓名?

来源 :CSDN(ID:CSDNnews)整理:郑丽媛自 OpenAI 推出具有 1750 亿参数的 AI 文本生成模型 GPT-3 后,这两年它便开始在各种不同的领域内“大显身手”:写小说、编剧本、敲代码、与人聊天、设计网页…

基于小样本学习的图像分类技术综述

基于小样本学习的图像分类技术综述 人工智能技术与咨询 昨天 本文来自《自动化学报》,作者李颖等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 图像分类是一个经典的研究课题, 典型的图像分类算法涉及两个问题, 一是如何对图像特征…

Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则

来源:机器之心编辑:小舟、陈萍Deepmind 旨在建立一个能够学习直观物理学的模型,并剖析模型实现这种能力的原因。从 AlphaFold 到数学推理,DeepMind 一直在尝试将 AI 和基础科学结合。现在,DeepMind 又创建了一个可以学…

双向特征融合的数据自适应SAR图像舰船目标检测模型

双向特征融合的数据自适应SAR图像舰船目标检测模型 人工智能技术与咨询 昨天 本文来自《中国图象图形学报》,作者张筱晗等 摘要: 利用合成孔径雷达(synthetic aperture radar,SAR)图像进行舰船目标检测是实施海洋监…

采用优化卷积神经网络的红外目标识别系统

采用优化卷积神经网络的红外目标识别系统 人工智能技术与咨询 前天 本文来自《光学精密工程》,作者刘可佳等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 摘要 针对视频数据利用低效和光测设备目标识别能力较弱的问题&#xff0c…

基于知识图谱的直升机飞行指挥模型研究

基于知识图谱的直升机飞行指挥模型研究 人工智能技术与咨询 昨天 本文来自《无线电工程》,作者齐小谦 关注微信公众号:人工智能技术与咨询。了解更多咨询! 摘 要: 针对当前直升机飞行指挥效率低下、数据关系复杂和智能化层次低…

基于深度强化学习的智能船舶航迹跟踪控制

基于深度强化学习的智能船舶航迹跟踪控制 人工智能技术与咨询 昨天 本文来自《中国舰船研究》 ,作者祝亢等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 0. 引 言 目前,国内外对运载工具的研究正朝着智能化、无人化…

基于深度强化学习的区域化视觉导航方法

基于深度强化学习的区域化视觉导航方法 人工智能技术与咨询 本文来自《上海交通大学学报》,作者李鹏等 关注微信公众号:人工智能技术与咨询。了解更多咨询! 在环境中高效导航是智能行为的基础,也是机器人控制领域研究的热点之一.实现自主…

知识图谱的最新进展、关键技术和挑战

知识图谱的最新进展、关键技术和挑战 人工智能技术与咨询 本文来自《 工程科学学报 》,作者马忠贵等 随着知识的不断积累和科学的飞速发展,人类社会进行了多次改变社会结构的重大生产力革命。最近的生产力革命正是由Web技术发展引发的信息革命。伴随…

NASA发布史上最深的宇宙全彩照!韦伯如何回传150万公里外的太空数据?

来源:大数据文摘作者:Mickey2022年7月11日凌晨,乔拜登总统、副总统卡玛拉哈里斯和美国国家航空航天局局长比尔纳尔逊公布了耗资100亿美元的詹姆斯韦伯太空望远镜的首秀!这是詹姆斯韦伯太空望远镜(JWST)发布了第一批图像。本张图片…

基于改进YOLO v3网络的夜间环境柑橘识别方法

基于改进YOLO v3网络的夜间环境柑橘识别方法 人工智能技术与咨询 本文来自《农业机械学报》,作者熊俊涛等 关注微信公众号:人工智能技术与咨询。了解更多咨询!

Nature走出重要的一步:研究代谢个体间差异的比较系统

来源:生物通一组线虫生物学家利用来自世界不同地区的四种不相关的秀丽隐杆线虫(C. elegans),开发了一个模型系统来研究新陈代谢的个体差异。这一进步代表着向“个性化”或“精准”医学迈出了潜在的重要一步。“精准”医学是一门相对较新的学科&#xff0…

工业和信息化部办公厅关于公布2021年产业技术基础公共服务平台复核结果的通知

工业和信息化部办公厅关于公布2021年产业技术基础公共服务平台复核结果的通知 人工智能技术与咨询 工业和信息化部办公厅关于公布2021年产业技术基础公共服务平台复核结果的通知 工信厅科函〔2021〕266号 北京市、上海市、广东省、吉林省、安徽省、河北省工业和信息化主管部…

英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效

来源:机器之心随着摩尔定律的放缓,在相同的技术工艺节点上开发能够提升芯片性能的其他技术变得越来越重要。在这项研究中,英伟达使用深度强化学习方法设计尺寸更小、速度更快和更加高效的算术电路,从而为芯片提供更高的性能。大量…

国家自然科学基金项目经费怎么用有了新规定

国家自然科学基金项目经费怎么用有了新规定 人工智能技术与咨询 来源:光明日报 为破除科研经费在申请、管理、使用方面存在的“难点”“堵点”和“痛点”,今年8月,《国务院办公厅关于改革完善中央财政科研经费管理的若干意见》正式印发。作…

无人系统群体智能及其研究进展

来源:无人机作者:周兴社,武文亮(西北工业大学 计算机学院,陕西 西安 710129)摘 要:群体智能是人工智能的重要发展方向之一.无人系统群体智能作为人工群体智能的主要形态之一,在许多军用和民用领域都具有广阔…