DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?

d7b2c51c09be6bef55bbe1c5cf8d1030.jpeg

大数据文摘转载自AI科技大本营

编译 & 整理:杨阳

记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗?

作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。

纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。

DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即为纪念纳什而命名。在AlphaGo之后,谷歌已降低在棋牌领域的关注,之所以推出DeepNash,在于借鉴纳什均衡的逻辑设定基础上,这款AI模型得以在西洋陆军棋Stratego(策略)中击败专业玩家,这比在国际象棋、围棋和扑克的比赛中击败人类更加困难。

DeepNash是怎么做到的呢?

超越围棋的走法量,诉求“无模型”和强化学习

相较其他棋牌游戏,Stratego在规则上就包含了更多不确定性,包括玩家之间的信息非对称。比如,象棋和围棋的牌面和走位都是公开的,但Stratego的牌面却是看不到的,这点和玩扑克一样。另一方面,相较于围棋只有一个初始定位,德州扑克有106个,而Stratego有惊人的超过1066个可以选择的起始点。要知道,1066这个量级已经超过了宇宙中所有星辰的总量。

18c293eeeca88d4b3daf6907363cd4b9.jpeg

在博弈树的算法统计量上,Stratego可能的走法达到不可思议的10535种,围棋的这一数量为10360。

信息非对称、路径解极多,极度复杂性意味着通过通用的“蒙特卡洛树”模型玩转Stratego并不可行。DeepNash的研究者之一,DeepMind研究员Perolat表示:“那些适用于扑克的算法在Stratego中是完全行不通的,可能的结果量级太过庞大,因而非常复杂,信息的处理需要更为完备的方法。”

最终,团队找到的方法是“无模型”强化算法,意味着在任何模型都无法实现精确模拟的情况下,让DeepNash就像一个婴儿或者一张白纸一样进行从0开始的积累。但这使得预测变得困难,甚至完全不可能。

为了解决这个问题,团队使用了深度强化学习为DeepNash提供动力源,目的是找到最优的纳什均衡。

运用纳什均衡,在信息不对称中诉诸最优解

强化学习算法如同“钢铁侠”,可以处理大规模数据量的问题,但牌面的信息不对称又该如何解决?该DeepNash中“Nash”发挥作用了。

纳什均衡,也是非合作博弈均衡分析,社会学和经济学专业学生对这个名词非常熟悉。其中最著名的实验就是后来经常应用在犯罪心理中的囚徒困境。这一理论给出的现实命题是:对于处于非合作博弈中的双方,无论对方如何选择,当事一方只有一种确定的策略对自己来说是最优解,因而两方都会选择自己的最优,最后达成彼此最优下的博弈均衡。

比如,两个共同犯罪的嫌疑人分别接受审讯,如果双方都不坦白,两人各自获刑一年;其中只有一方坦白,坦白的无罪释放,不坦白的获刑十年;而如果双方都坦白,各获刑五年。在这个假想实验中,都不坦白才是整体最优。然而,对于两位囚徒来说,肯定都希望无罪释放,而无论对方是否坦白,自己坦白都是理性最优解,所以最终的结果就是各获刑五年。

如果将纳什均衡的逻辑放到DeepNash的算法设定中,游戏中互相看不到牌面的双方就像囚徒困境中无法串通的两个囚徒,彼此是非合作博弈。在信息不确定的情况下,只有走无论对方出什么牌“我”都是最优选的牌,才能确保在多轮博弈中获胜。

DeepNash获得同类竞技97%胜率

纳什均衡和加上强化学习,最终达成均衡下的最优解:通过“每位玩家获得任何收益都会导致对手损失”的逻辑,凭借强化学习在游戏的每一步中计算下一步的最佳算法。就这样,DeepNash开启了自我对抗训练。

训练的奖惩机制是:当DeepNash—A获胜时,该网络参数将会增强;同时,对手方DeepNash—B的参数将会被削弱。通过55亿次的对弈,DeepNash取得了很好的成绩,失误率越来越小,无限接近纳什均衡最优。

在算法测试中,DeepNash以97%的胜率压制了其他机器选手。而在Gravon游戏平台上,通过和人类专业棋手进行两周多的竞技,DeepNash最终在有20年历史的积分排名榜中升至第三位。

除了学习能力惊人,DeepNash更让人惊讶的地方在于,它在开局不会固定自己的起始位置,而是不断优化起始点。这样做究竟是随机在10535种可能性中寻找最优解,还是“有意识”地避免对手对自己出牌套路的破解而故意为之,目前不得而知。如果是后者,就让人不寒而栗了。不过,DeepNash确实会用一些看上去“诱骗”的方式来“引诱”对手落入陷阱,通过一些看似无意义(棋子重复跳动),或者牺牲高级棋子(让对方放松警惕),从而进行伏击。

加入非理性测算后的多方博弈

DeepNash确实相当厉害,但如果你仔细观察也不难发现,纳什均衡的状态是发生在两方之间的,而现实世界往往并非两者的零和博弈。当博弈均衡需要发生在多方,又会呈现怎样的态势呢?

对此,Meta AI研究员们的发明或许更具挑战性:创建了能够玩多方博弈游戏的AI模型——Cicero。在一款名为Diplomacy(外交风云)的游戏中,多个玩家每人代表一个国家,最多可以有7个玩家一起玩。游戏规则是进行军队和战舰的战略部署,从而获得对供应中心的控制权。

78cff737b176b2a3a442d01dd5f65743.jpeg

和DeepNash在Stratego中展现的非合作博弈下的纯零和状态不同,Cicero的博弈模式设定更加开放,包括每个玩家都可以私下进行交流和合作,而当合作博弈与非合作博弈都构建在多玩家的算法模型中时,预期结果更加不可控。

Cicero的开发者之一Noam Brown表示说:“当你超越双人的零和游戏时,纳什均衡的概念对于与人类打好关系不再那么有用。”

目前,Cicero已经在Diplomacy的125,261场游戏中进行了训练,它的推理模块(SRM)已经学会预测自身的状态,包括其他玩家可能采取的策略。通过预测,SRM会选择最佳的行动路径,并向其拥有27亿参数语言模型的对话模块上发出意图信号。

在Brown看来,像Cicero这样能够与人类进行互动,并且可以对人类的非理性次优行为进行解释的人工智能才能越来越接近现实世界,从而为未来的应用铺平道路。他以智能驾驶举例:“你不能设想道路上其他司机都是理性的。”

唯理派 PK 经验论:哪个更接近现实?

在应用上,尽管DeepNash是为Stratego而开发的,但它的实际用途远不止在游戏世界里“捣乱”。未来将会用在便利人们生活的各个方面,比如交通或者市场预测。

和DeepNash一样,Cicero未来也会应用于现实世界,“我们虽然有一只脚在游戏世界里,但现在我们也有一只脚在现实世界里。”

对于DeepNash和Cicero,你认为它们哪个更可能实现在现实世界的落地呢?请留言投票。

参考链接:

https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/

https://www.nature.com/articles/d41586-022-04246-7

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

75849cc96792d1a85b590d9510fdcc55.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481327.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(上)

小提示:小夕会将小屋的最新动态更新到小屋的布告栏哦,口令是【nb】(口令在订阅号主界面直接回复即可使用)。 小夕学了数据结构后,知道了链表、树、哈希表等数据结构与静态数组的固定容量不同,它们…

马斯克脑机接口公司被查,曾宣布6个月内进行人体试验

来源:医谷文:医谷近日,据路透社报道称,因涉嫌违反动物保护相关内容,马斯克的脑机接口公司Neuralink正面临美国联邦部门的调查。据称,其现任和前员工指出,由于马斯克要求加快研发速度的高压要求&…

【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(中)

亲爱的小屋客人,昨天小夕将小屋的讨论室重新装修啦!希望您会喜欢哦~除了口令[d],现在也可以通过主页下方的“喵了个咪”进入讨论室啦。ps:昨天小夕装修讨论室的时候发生了N次差点吐血的事件,明天小夕与大家含泪分享T_T…

马斯克点赞!DeepMind神AI编剧,一句话生成几万字剧本

来源:机器学习研究组订阅你有灵光乍现的时刻吗?就是那种:这点子太好了,要是拍成电影一定能大火?之前这种想法可能只能停留在你的脑海中,而现在,一个「AI编剧大师」的出现,或许能让你…

“东数西算”之五大热点问题探讨

"“东数西算”无疑是2022年一大热词,产业界和学术界就该话题进行了深入的研究探讨。"整体上来看,“东数西算”的实施,一方面是为了更好地利用西部相对优惠的电力资源和优异的气候条件,推动数据中心的优化布局和产业整体…

科普一下人工智能领域的研究方向

路人甲:“你是学什么的?” 小夕:“学计算机嗒~” 路人甲:“哦哦,那你ps肯定很厉害!” 小夕:“我不会,我是做人工智能的。” 路人甲:“哦哦,做机器人的啊&…

编程神器Copilot被官司搞怕了?月收费19美元的商业版将提供辩护服务,最高索赔50万美元...

来源:AI前线作者:凌敏、核子可乐Copilot 的商业化“虽迟但到”。GitHub 推出商业版 Copilot据外媒 theRegister 报道,GitHub 旗下的 AI 编程神器 Copilot 现已推出商业版本,每月收费 19 美元(约合 133 元人民币&#x…

【激萌】人工智能大地图-生存能力篇

小屋的喵喵们,讨论室的投票明天就要截止了,还没有投票的喵喵快来啦。通过口令[d]或者主界面下方“喵了个咪”菜单即可进入讨论室哦。本文的封面图还是小夕设计的哦~喜欢吗(⁎⁍̴̛ᴗ⁍̴̛⁎)路人甲:“你是学什么的?”小夕&#…

Nature经典回顾:大脑中统一的物体空间模型

导语大脑能够轻而易举的完成物体识别,这一过程主要在大脑的下颞叶皮层进行。研究已经发现下颞叶皮层存在面孔、身体、场景等类别选择性区域,然而,仍有大部分下颞叶皮层未发现已知的功能特异性。这就带来一系列问题:未被理解的大片…

小夕说,不了解动态空间增长的程序喵都是假喵(下)

小夕在本系列前两篇文章中为大家介绍了各类数据结构的扩容策略,且在上篇文末,小夕提到了加倍式扩容中,倍率采用2并不是最优的,为什么呢?有没有最优倍率呢?内存复用如果倍率采用2甚至更大的数,那…

ChatGPT 与AI大模型发展简要综述

来源:数据观综合编辑:蒲蒲"日前,美国硅谷的初创公司OpenAI推出了一款新的人工智能对话模型ChatGPT,模型中首次采用RLHF(从人类反馈中强化学习)方式。目前,模型处于测试阶段,用户…

Nature Reviews Physics:人工智能怎样促进科学理解

导语一个能正确预测每个粒子物理实验结果、每个可能的化学反应产物或每个蛋白质的功能的先知将彻底改变科学和技术。然而,科学家们不会完全满意,因为他们想了解先知是如何做出这些预测的。这就是科学理解(scientific understanding&#xff0…

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(一)

喵喵喵~大家元宵节快乐噢。有没有要陪小夕出去看烟花的吖...小夕借此给热爱学习的喵喵们献上这篇拙文,希望不要嫌弃哦~还有,小夕画的封面图是不是很棒呀( ̄∇ ̄)小夕发现现在想进军人工智能领域的程序yuan甚至少年少女喵好多呀&…

OpenAI ChatGPT走红,DeepMind不甘示弱,推出剧本写作AI,一句话生成一个剧本

来源:机器学习研究组订阅Dramatron似乎在一定程度上克服了AI大模型写长剧本前后不连贯的问题。你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去…

[完结]以C++与Java为例,详解数据结构的动态增长策略

前言 本文改编自小夕的订阅号文章《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(上)》、《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(中)》、《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(…

量子计算机创造了虫洞吗?不完全是,但揭示了量子模拟的未来

来源:光子盒研究院最近,科学家们因据称产生了一个虫洞而成为头条新闻。发表在《自然》杂志上的这项研究使用量子计算机在简化的物理模型中模拟虫洞。消息传出后不久,物理学家和量子计算专家对虫洞是否真的存在表示怀疑。这是怎么回事&#xf…

复旦大学邱锡鹏教授:语言模型即服务,走向大模型的未来

来源:智源社区作者:智源社区整理:周致毅人类一直期待AI能在处理自然语言方面大放异彩,语言大模型在近些年已逐渐成为NLP领域的标配。随着模型的扩张,当前大模型的调用已变成上游厂商开放API供下游使用的模式。这一模式…

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)

谢谢你们。小夕昨晚又熬夜被发现了,谢谢对小夕的关心...有你们陪着,小夕很幸运。路人乙:“小夕,别人都说上完coursera上的那门机器学习课就已经入门机器学习了,可你又不这样认为。那你认为上完那门课,或者说…

计算机史上首篇教你从算法问题提炼算法思想的文章

路人丙:“小夕,你说学算法有什么用呢?”小夕:“好玩呀。”路人丙:“算法问题那么多,现查现用不就好了?”小夕:“好咯,既然你诚心诚意的问了~小夕就大发慈悲的震惊你(&…

美国能源部正式宣布核聚变里程碑式突破,专家点评商业化还需数10年

来源:澎拜责任编辑:郑洁图片编辑:张同泽校对:施鋆耗资35亿美元的美国国家点火装置用了10多年时间不断冲击点火目标,过程一波三折。成功点火后有两条路可走。一是冲刺更高的能量增益,未来或将再建更大能量的…