DeepMind提出强化学习新方法,可实现人机合作

108464cc33113ee0333f74651c47bf80.png

来源:AI前线

作者:Ben Dickson

译者:盖

策划:凌敏

本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。

尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类专家的强化学习系统,但如何创建出能与人类开展合作而非竞争的强化学习系统是人工智能正面临的更大挑战。

在一篇由 DeepMind 的人工智能研究人员最新预发布的论文中,提出了一种称为 FCP(Fictitious Co-Play,虚拟合作)的新方法。该方法实现智能体与不同技能水平人类间的合作,无需人工生成数据训练强化学习智能体(agent)。论文已被今年的 NIPS 会议接收。

论文通过使用一款称为 Overcooked 的解谜游戏进行测试,结果表明在与人类玩家的组队合作中,FCP 方法创建的强化学习智能体表现更优,混淆度最低。论文结果可为进一步研究人机协作系统提供重要方向。

论文地址:https://arxiv.org/abs/2110.08176

训练强化学习智能体

强化学习可持续无休地学习任何具有明确奖励(award)、动作(action)和状态(state)的任务。只要具备足够的计算能力和时间,强化学习智能体可根据所在的环境(environment)去学习出一组动作序列或“策略”,以实现奖励(award)的最大化。强化学习在玩游戏中的有效性,已得到很好的证明。

但强化学习智能体给出的游戏策略通常并不能很好地匹配真人队友的玩法。一旦组队合作,智能体执行的操作会令真人队友大感困惑。由此,强化学习难以应用于需各方参与者协同规划和分工的场景。如何弥合机器智能与真人玩家间存在的鸿沟,是人工智能社区正面对的一个重要挑战。

研究人员正致力于创建各种强化学习智能体,达到能适应包括其它强化学习智能体和人类在内的各合作方的行为习惯。

f40ff91aa32bcddfabae2fc4e387c2b3.png

图 1 强化学习智能体的多种训练方法

SP 方法 (self-play,左右互搏法) 是游戏使用的经典强化学习训练方法。该方法让强化学习智能体与自身的一个副本持续对战,能非常高效地学习出实现游戏奖励最大化的策略。但该方法的问题在于,所生成的强化学习模型会过拟合智能体自身的游戏玩法,导致完全无法与使用其他方法训练的玩家合作。

另一种训练方法是 PP 方法 (popuation play,群体参与法),它在强化学习智能体训练中引入了多种具有不同参数和结构的队友模型。尽管在与真人玩家合作的竞技游戏中,PP 方法要明显地优于 SP 方法,但其依然缺乏应对“共同收益”(common-payoff)场景下的多样性(diversity)问题。“共同收益”指玩家必须协同解决问题,并根据环境变化去调整合作策略。

第三种方法称为 BCP 方法 (behavioral cloning play,行为克隆法),它使用人工生成的数据训练强化学习智能体。有别于在环境中随机选取起始点,BCP 方法根据采集自真人玩家的游戏数据去调整模型参数,使智能体生成更接近于人类玩家游戏模式的行为。如果可以采集具有不同技能水平和游戏风格玩家的数据,那么智能体就能更灵活地适应队友的行为,更有可能与真人玩家很好地配合。然而 BCP 方法的挑战性在于如何获取真人数据,特别是考虑到要使强化学习模型达到最佳设置,通常所需的游戏量是人工所无法企及的。

FCP 方法

DeepMind 新提出的强化学习 FCP 方法,其关键理念是在无需依赖于人工生成数据的情况下,创建可与具有不同风格和技能水平玩家协作的智能体。

FCP 方法的训练分为两个阶段。首先,DeepMind 研究人员创建了一组使用 SP 方法的强化学习智能体,分别在不同的初始条件下独立完成训练,使模型收敛于不同的参数设置,由此创建了一个多样化的强化学习智能体池。为实现智能体池中技能水平的多样化,研究人员保存了每个智能体在不同训练阶段的快照。

正如论文所述,“最后一个检查点表示的是一个经完全训练的‘熟练’玩家,而较早的检查点则代表技能尚不纯熟的玩家。需说明的是,使用多个检查点实现各个玩家技能的多样性,这并不会导致的额外训练成本。”

第二个阶段使用池中所有的智能体,训练出一个新的强化学习模型。新智能体必须达成策略上的调优,才能实现与具有不同参数值和技能水平的队友开展协同。论文提出,“FCP 智能体完全可以达到跟随真人玩家带队,在给定范围的策略和技能中去学习出一个通用的策略。”

测试 FCP

DeepMind 的人工智能研究人员将 FCP 方法应用于解谜游戏 Overcooked。游戏玩家在网格化场景中移动,与物体互动,执行一系列步骤,最终完成烹饪和送餐任务。Overcooked 的游戏逻辑简单,并需要队友间的协作和工作分配,因此非常适合测试。

为测试 FCP 方法,DeepMind 研究人员简化了完整的 Overcooked 游戏任务。他们精心挑选了一组具有多种挑战的地图,包括强制协作和受限空间等。

ce7580b89780004a8d4c1696af322f6b.png图 2 DeepMind 使用简化版 Overcooked 测试 FCP 方法

研究人员分别训练了一组 SP、PP、BCP 和 FCP 智能体。为了比较各方法的性能,他们首先组了三个队,分别测试每种强化学习智能体类型,即基于人类游戏数据训练的 BCP 模型、在不同技能水平上训练的 SP 智能体,以及代表低水平玩家的随机初始化智能体。测试根据在相同数量剧集中所能提供的餐食数,衡量各方法的性能优劣。

结果表明,FCP 方法的表现要明显优于其他强化学习智能体训练方法,可以很好地泛化各种技能水平和游戏风格。出乎意料的是,测试进一步表明了其他训练方法是非常脆弱的。正如论文所述,“这意味着其他方法可能无法达到与技能水平一般的玩家组队。”

8ef55f8c9d467a47d693a58ef4014fd8.png图 3 对于强化学习智能体训练,FCP 方法优于其他方法

论文进而测试了每种类型的强化学习智能体在与人类玩家合作中的表现。研究人员开展了有 114 名人类玩家参加的在线研究,其中每位玩家参与 20 轮游戏。在每一轮游戏中,玩家与其中一种强化学习智能体组队,但并不知道该智能体的具体类型,随机进入一个厨房场景。

根据实验结果,“人类 -FCP”组队的性能,要优于其他所有“人类 - 强化学习智能体”组队。

每两轮游戏后,参与玩家根据与强化学习智能体组队的体验,给出一个 1 到 5 之间的评分。相对其他智能体,参与玩家对 FCP 队友表现出明显的偏好。反馈表明,FCP 智能体的行为更加连贯、更好预测,适应性更强。例如,强化学习智能体似乎具备了感知队友行为的能力,在每个烹饪场景中选择了特定角色,避免相互产生混淆。

与之相比,其他强化学习智能体的行为则被测试参与者描述为“混乱无章,难以合作”。

d310a4e2046360cb0dd4c8636a46e76e.png

图 4 DeepMind 使用各种强化学习智能体与人类玩家组队

下一步工作

在论文中,研究人员也指出了该工作的一些局限性。例如,在 FCP 智能体的训练中,只使用了 32 个强化学习合作队友。尽管这完全可应对简化版的 Overcooked 游戏,但应用于更复杂的环境时可能会受限。DeepMind 研究人员指出,“对于更复杂的游戏,为表示足够多样化的策略,FCP 所需合作伙伴的总体规模可能难以企及。”

奖励定义是限制 FCP 应用于更复杂环境的另一个挑战。在简化版 Overcooked 中,奖励是简单而且明确的。但在其他环境中,强化学习智能体在获得主要奖励前,必须去完成一些子目标。而智能体实现子目标的方式,必须要与人类合作伙伴的方式保持一致。这在缺少人类数据的情况下,是很难去评估和调优的。研究人员提出,“如果任务的奖励函数与人类处理任务的方式非常不一致,那么和所有缺少人类数据的方法一样,该方法同样很可能会生成非最优的合作伙伴。”

DeepMind 的研究可归为人机协作领域研究。在麻省理工学院科学家的一项最新研究中,探索了强化学习智能体在与真人玩家玩纸牌游戏 Hanabi 中的局限性。

DeepMind 提出的强化学习新技术,在弥合人类和人工智能间鸿沟上取得了进步。研究人员希望其“能为未来研究人机协作造福社会这一重要挑战奠定坚实的基础。”

原文链接: 

https://bdtechtalks.com/2021/11/22/deepmind-reinforcement-learning-fictitious-coplay/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

5f56ab95ade8233e5d2e733718a18ee8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483069.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

军事大脑的构建对未来战争的影响

前言:本文是我与军事科学院的赵蔚婷,王婉两位老师在2020年4月发表的一篇论文,首发在《中国科技论文在线》,是将互联网大脑模型与军事领域结合,形成军事大脑和军事超级智能的概念体系,重点提出军事神经元和军事云反射弧…

斯坦福抢开“元宇宙”第一课,上起来还真不便宜

过去半个世纪,斯坦福教给学生的技术,促成了硅谷的诞生;而为了将来的 Web3 时代,斯坦福也已经做好了准备。来源: 硅星人文:杜晨 编辑:VickyXiao今年10月底,硅谷顶级科技公司 Facebo…

加拿大工程院院士于非:互联—— 从质量、能源、信息到智能

来源:AI科技评论整理:莓酊编辑:青暮2021年12月9日,第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕。140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入&…

2021年诺贝尔经济学奖评述:解决重大社会问题的自然实验因果框架

来源:集智俱乐部作者:诺奖委员会译者:邓宇昊 编辑:邓一雪 导语许多重大社会问题都涉及到因果分析。比如,接受更长时间的教育是否会让你未来的收入增加?提高最低工资对一个地方的就业会产生怎样的影响&…

溯因推理:人工智能的盲点

来源:AI前线作者:Ben Dickson译者:Sambodhi策划:凌敏本文给当今人工智能界推崇深度学习的现象泼了冷水,指出了人工智能的盲点:溯因推理,并提醒人们不要忽视深度学习的种种问题,否则将…

终于,LoRaWAN成全球物联网标准!LoRa将拿下LPWAN领域50%市场?

来源:LoRa联盟官网等整理发布:物联网智库 不久之前,支持物联网低功耗广域网(LPWAN)LoRaWAN开放标准的LoRa联盟宣布,致力于“物联网和智慧城市及社区标准化”的国际电联电信标准化部门(ITU-T&…

算法(二叉树-矩阵-堆排序)

最小和 位运算知识点 12>>1 //6 a/2 等价为 a>>1 中间数 (LR)/2 会出现溢出(溢出的意思就是超过了二进制) L(R-L)/2 最终改成 l((r-l)>>1) const smallSum arr > {if (arr null || arr.length < 2) {return 0;}return mergeSort(arr, 0, arr.length …

Nature:盐粒大小的相机,可以拍出清晰彩色照片,未来或可应用到手机

来源&#xff1a;大数据文摘你能想象上图只有盐粒大小的物体是一款相机吗&#xff1f;事实上&#xff0c;这款微型相机甚至可以拍出清晰的全彩图像&#xff0c;而相比之下&#xff0c;普通相机的尺寸要大50万倍。我们可以来看看它的成片。这款微型相机是普林斯顿大学和华盛顿大…

spring学习笔记01-BeanFactory和ApplicationContext的区别

spring学习笔记01-BeanFactory和ApplicationContext的区别 BeanFactory 和 ApplicationContext 的区别 BeanFactory 才是 Spring 容器中的顶层接口。 ApplicationContext 是它的子接口。           BeanFactory 和 ApplicationContext 的区别&#xff1a; 创建对象的…

java微博爬虫

微博爬取要做到每日百万级的数据量&#xff0c;需要解决很多问题。 1.springboot自带Scheduled注解是一个轻量级的quartz&#xff0c;可以完成定时任务。只需要在运行方法上加一个Scheduled注解即可。 该注解有许多属性值 initiaDelay 从程序开始延长一定时间后首次执行。 fixe…

2100年彻底颠覆世界的“十大未来科技”

来源&#xff1a;于硅谷智库 科学家们对2100年前的人类生活进行了十大预测&#xff0c;如果这些预测能够变成现实的话&#xff0c;将会让世界发生翻天覆地的变化。1能上网的隐形眼镜出现时间&#xff1a;2030年前预测者&#xff1a;来自华盛顿大学西雅图分校的巴巴克A帕尔维兹教…

智能如何产生,这仍然是个问题

来源&#xff1a;孙学军科学网博客链接地址&#xff1a;https://blog.sciencenet.cn/blog-41174-1316772.html本文的智能只是生物系统工作原理层面&#xff0c;而不是意识层面的&#xff0c;无论是工作原理&#xff0c;还是大脑意识层面&#xff0c;今天的科学仍然没有给出理想…

spring学习笔记05-IOC常用注解(二)

文章目录2.3 关于 Spring 注解和 XML 的选择问题2.4spring 管理对象细节2.5spring 的纯注解配置2.5.1 待改造的问题2.5.2 新注解说明2.5.2.1 Configuration2.5.2.2 ComponentScan2.5.2.3 Bean2.5.2.4 PropertySource2.5.2.5 Import2.5.2.6 通过注解获取容器&#xff1a;2.3 关于…

一文掌握明年物联网传感器市场!2022中国AIoT产业全景图谱报告新鲜出炉

来源&#xff1a;传感器专家网物联网产业是传感器应用最广泛的领域之一&#xff0c;研发新型传感器&#xff0c;做传感器市场&#xff0c;都不能不考虑物联网产业的需求。2021年随着COVID-19 病毒的存在已常态化&#xff0c;防疫抗疫进入了拉锯阶段&#xff1b;波及全球的“芯片…

EUV光刻机内部揭秘!

转载自: ittbank来源&#xff1a;半导体行业观察PatrickWhelan正在透过他的洁净室服面板凝视着事情的进展。在他面前是一块闪闪发光的玻璃&#xff0c;大约有一个烤箱那么大&#xff0c;上面刻有许多挖出的部分以减轻重量&#xff0c;看起来像一个外星图腾。Whelan 的团队正在将…

数据结构与算法——搜索

文章目录1.内容概述2.岛屿数量2.1 题目描述2.2 DFS深度搜索算法思路2.3 BFS宽度搜索算法思路2.4 C代码实现3.单词接龙3.1 题目描述3.2 算法思路3.3 C代码实现4.单词接龙 II4.1 题目描述4.2 算法思路5.火柴拼正方形5.1 题目描述5.2 算法思路5.3 代码实现5.4 算法思路25.5 代码实…

小程序基础能力~网络

&#xff08;1&#xff09;网络-使用说明 网络 在小程序/小游戏中使用网络相关的 API 时&#xff0c;需要注意下列问题&#xff0c;请开发者提前了解。 1. 服务器域名配置 每个微信小程序需要事先设置通讯域名&#xff0c;小程序只可以跟指定的域名与进行网络通信。包括普通 HT…

mybatis学习笔记-02-第一个mybatis程序

该视频为狂神说java视频配套笔记&#xff08;博主自己手打223&#xff0c;日后做个参考223&#xff09;&#xff0c;b站连接&#xff1a;Mybatis最新完整教程IDEA版【通俗易懂】-02-第一个mybatis程序) 文章目录2.第一个mybatis程序2.1搭建环境2.2 创建一个模块2.3编写代码2.4测…

徐波所长专访 | 人工智能:从“作坊式”走向“工业化”新时代

来源&#xff1a;人民网人工智能创新不断 “一体两翼”快速发展人民网&#xff1a;当前&#xff0c;人工智能技术创新不断&#xff0c;应用层出不穷。它究竟走到了哪一步&#xff1f;能否谈谈您是如何看待我国人工智能技术发展现状的&#xff1f;徐波&#xff1a;人工智能是一个…

linux——线程(1)

文章目录1.线程概念1.1 什么是线程1.2 线程和进程区别1.3 线程实现原理1.4 三级映射1.5 线程共享资源1.6 线程非共享资源1.7 线程优、缺点2.线程控制原语2.1 pthread_self 函数2.2 pthread_create 函数3.线程与共享3.1 线程共享全局变量4.线程退出4.1 pthread_exit 函数1.线程概…