Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3

b96009370ca1db9ec72dbffa30a67b78.png


对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力。


如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准——


97% 的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈,取得了 84% 的总胜率,在年初至今和历史排行榜上都排在前三名


值得注意的是,这一惊人表现是在没有部署任何搜索方法的情况下实现的,这是 AI 之前在棋类游戏中取得多个里程碑式成就的关键。

d2edc23f6bc799bbea8c7789c577cae9.png

(来源:维基百科)


相关研究论文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”为题,已发表在权威科学期刊 Science 上。


多年来,Stratego 一直是人工智能行业的下一个前沿领域之一。Stratego 玩家既需要有像玩国际象棋一样的长期战略性思考,也需要能够像打扑克一样处理不完全的信息


不完全信息,意味着参与人在进行博弈时不清楚博弈中的某些要素。例如,在桥牌游戏中,玩家并不清楚其他玩家手中的牌,在拍卖会中,竞拍人并不清楚其他竞拍人对物品的估价。


这个名为“DeepNash”的 AI 代理出自 DeepMind,在他们看来,这代表了一个非凡的成果;同样,Stratego 社区也认为,这用现有技术是不可能实现的


Stratego 诞生于 1947 年,与中国陆军棋不同,其军衔、棋子数量较多,棋盘设计较为简单,没有铁路、行营,也没有裁判,当两方棋子相遇后,才会揭开来判断大小。二者的相同之处,都是以夺得对方军旗或消灭所有可移动的棋子为胜利标志。

6b8d97aca1b55f0d07c901859485cbea.png

图|陆军棋与 Stratego


Stratego 便是一种不完全信息游戏。与之相反,国际象棋、跳棋、日本将棋和围棋可看作完全信息博弈,因为双方完全清楚游戏规则,当前局面对方可能的下法等信息。


而且,Stratego 具有非常复杂的结构,其博弈树具有 10^535 种可能的状态,比无限德州扑克(10^164)和围棋(10^360)都要多。


另外,在特定情况下,Stratego 玩家需要在游戏开始时推理出多于 10^66 对可能的排布,而在德州扑克中,这一数字仅为 10^6;完全信息游戏则没有这一阶段,相对更为简单。


在 Stratego 中,双方各有代表元帅(Marshal)、将军(General)、上校(Colonel)、中校(Major)、上尉(Captain)、中尉(Lieutenant)、士官(Sergeant)、除雷兵(Miner)、斥侯(Scout)、间谍(Spy)、地雷(Bomb)、军旗(Flag)的棋子。

具体游戏规则为:两方将所有己棋竖立、以正面朝后的方式排布,然后轮流移动一枚己棋;可以将棋子沿纵横方向移动一格至空格或敌棋处,但需要维持正面朝后;如果一方棋子到达敌棋处,便将两棋公开,一般胜方这一棋子会被放回原位且正面继续朝后,输方这一棋子则被移除游戏。

8f21193d287f3b489e8cd98a2ebe4816.png

图|胜负关系判定(来源:维基百科)


提前计划的能力,一直判断某一 AI 技术/代理是否成功的核心问题,Stratego 等不完全信息游戏,则常被用来测试 AI 代理依次做出相对缓慢、慎重和合乎逻辑的能力大小。


然而,目前利用不完全信息搜索技术来掌握 Stratego 是不可能的。


据论文描述,DeepNash 使用了一种博弈论的、无模型的深度强化学习方法 R-NaD,无需搜索,便能以从头开始的自我博弈方式来学习如何掌握游戏策略比如虚张声势


正如冯·诺伊曼(von Neumann)所描述的那样:“现实生活由‘虚张声势’‘欺骗的小策略’‘问问自己别人会认为我打算做什么’组成。”

8f758a82be4ee9cbf5e8e25ffcab1d06.png

图|DeepNash(蓝色)在与人类(红色)的对阵中表现出“虚张声势”。正面虚张声势(A);负面虚张声势(B);DeepNash 将一个斥候伪装成一个间谍,并获得情报(C)。(来源:该论文)


研究团队表示,这项工作引入了一种新的博弈论方法,与最先进的基于搜索的学习方法截然不同,在训练过程中不执行任何形式的搜索或显式对手建模,只依赖于在测试时使用一些游戏特定的启发式教学。


展望未来,目前还没有迹象表明 R-NaD 在零和的双人游戏设定之外会如何发展。


然而,研究团队却认为,它或许可以解锁深度学习方法在现实世界中具有不完全信息特征的巨大空间的多智能体问题中的进一步应用。例如,最先进的双人扑克方法已经成功应用在六人扑克中。


该方法在这类不完全信息场景下或许有很多潜在应用,包括人群和交通建模、智能电网、拍卖设计和市场问题等

参考链接:

www.science.org/doi/10.1126/science.add4679

学术头条

新版微信更改了公众号推荐规则,不再以时间排序,而是以每位用户的阅读习惯为准进行算法推荐。在此情况下,学术头条和“学术菌”们的见面有如鹊桥相会一样难得(泪目)

那么,如果在不得不屈服于大数据的当下,你还想保留自己的阅读热忱,和学术头条建立长期的暧昧交流关系,将学术头条纳入【星标】,茫茫人海中也定能相遇~

|点这里关注我👇 记得标星|

498f4594df1e395538e18a68233ef5fa.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法、图灵机、哥德尔定理与知识的不确定性

来源:人机与认知实验室作者:王荣江摘要:知识论一直在寻求对知识的确定性作一般算法式的逻辑证明的辩护。然而,即使在处理抽象的数量概念的数学基础研究中,也不能达到最终逻辑证明的确定性。图灵对停机问题的算法步骤的…

科学家建立邻近细胞遗传学技术揭示体内细胞间相互作用

来源:中国科学院分子细胞科学卓越创新中心12月2日,《科学》(Science)以Research Article的形式,在线发表了中国科学院分子细胞科学卓越创新中心(生物化学与细胞生物学研究所)周斌研究组的最新成…

三院士漫谈:未来机器人:目标、路径和挑战

来源: 机器人大讲堂从阿西莫夫提出机器人三定律已经过去70多年了。现在,科技巨头试水机器人的新闻也密集起来。比如8月里,小米发布了全尺寸人形仿生机器人“CyberOne”,别号“铁蛋”。特斯拉宣布将在今年9月30日推出人形机器人Opt…

整个元素周期表通用,AI 即时预测材料结构与特性

编辑 | 绿萝材料的性质由其原子排列决定。然而,现有的获得这种排列的方法要么过于昂贵,要么对许多元素无效。现在,加州大学圣地亚哥分校纳米工程系的研究人员开发了一种人工智能算法,可以几乎即时地预测任何材料(无论是…

Trends Cogn Sci 封面综述| 北师大毕彦超教授:人脑知识的双重编码理论

来源:brainnews编译作者:(嗯铃、洛文 brainnews创作团队)校审:(洛文、Freya brainnews编辑部)我们的大脑是如何编码有关世界的各种各样知识?我们与日益强大的AI有着怎样的不同&a…

亚马逊 CTO Werner Vogels:2023年及未来五大技术趋势预测

来源:亚马逊云科技近年来,几次全球性危机占据了我们的日常生活,因此看看我们是否可以利用技术来解决这些棘手的人类问题。如今,我们可以从很多互联设备获取数据,例如:可穿戴设备、医疗设备、环境传感器、视…

深度学习如何集成领域知识?IBM研究等《知识增强深度学习》综述,全面阐述科学与经验知识增强的深度学习...

来源:专知尽管在过去的几年里,深度学习模型在许多不同的领域取得了巨大的成功,但通常数据匮乏,在不可见的样本上表现不佳,而且缺乏可解释性。目标领域往往存在各种先验知识,利用这些先验知识可以弥补深度学…

不确定因果:当因果遇到量子

导语2022年诺贝尔物理学奖授予“用纠缠光子实验验证量子力学违反贝尔不等式”,确认了被称为“鬼魅般的超距作用”的量子纠缠现象。量子的世界常常超出人类的直觉,当我们将因果关系从经典世界外推到量子世界,会发生什么?研究发现&a…

脑机接口深度报告!四大关键技术让科幻走进现实|智东西内参

来源:智东西脑科学问题是人类社会面临的基础科学问题之一,是人类理解自然和理解人类本身的待深入探索领域,而脑机接口是有效探索手段之一。在国家战略的积极推动下,在科技创新不断更迭促进下,在人民大众期待关注下&…

写代码调 Bug,OpenAI 发布最强 AI 对话系统 ChatGPT!

来源:CSDN(ID:CSDNnews)整理:苏宓GPT-3 发布的两年后,我们没等来它的亲弟弟 GPT-4,而是在今天亲眼见证了 OpenAI 带来了一种全新的 AI 聊天机器人——ChatGPT,也可以称之为是 GPT-3 …

AI 大模型开源之困:垄断、围墙与算力之殇

从新兴技术转变为AI基础设施,大模型开源很重要,但也很难。来源:AI科技评论作者:李梅编辑:陈彩娴2020年6月,OpenAI发布GPT-3,其千亿参数的规模和惊人的语言处理能力曾给国内AI界带来极大的震动。…

神经符号 AI,或为下一代 AIoT 的新解法

来源:AI科技评论作者:黄楠编辑:陈彩娴11 月 22 日,2023 年度 IEEE Fellow 名单公布,入选者约1/3为华人学者。IEEE Fellow 被称为全球电子电气工程领域的最高荣誉,每年当选人数不足整个 IEEE 协会的千分之一…

ChatGPT会取代搜索引擎吗

来源:AI科技大本营作者:张俊林本文经作者授权发布,原文地址:https://zhuanlan.zhihu.com/p/589533490作为智能对话系统,ChatGPT最近两天爆火,都火出技术圈了,网上到处都在转ChatGPT相关的内容和…

菲尔兹奖得主再次突破数论难题:多少整数能写成2个有理数立方和?结论直接影响“千禧难题”之七...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI困扰数学界几个世纪的难题,终于有重大突破了!这个难题如果被解决,会直接影响到一个著名未解之谜的求解——贝赫和斯维讷通-戴尔猜想。贝赫和斯维讷通-戴尔猜想是数学界顶尖的7大千禧难题之一&…

从城市到国家:多学科视角的城市复杂系统

摘要与城市一样,国家在很大程度上是人造的系统。尽管它们在地点和规模上有所不同,但城市和国家都是可识别的单位,具有独特的特征,是独立的(不能被分解成部分而不失去其特征或个性的系统)。一个国家的历史与…

杀死1500只动物?马斯克的脑机接口公司被查!已宣布半年内进行人体试验

来源:每日经济新闻记者:郑雨航编辑:段炼 兰素英 杜波 杜恒峰校对:王月龙当地时间12月5日,路透社报道称,因涉嫌侵犯动物福利的违规行为,马斯克的脑机接口公司Neuralink正面临美国联邦部门的调查。…

人民日报:在集成电路基础研究中奋力攀登

来源:芯榜Pro转载自人民日报党的十八大以来,一大批70后、80后、90后青年科研人员脱颖而出,日益成为科技创新的生力军、主力军。党的二十大报告提出:“必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实…

骆清铭院士:给“大脑”绘制一个清晰可见的“地图”

来源:学习时报作者简介:骆清铭,中国科学院院士,海南大学校长,华中科技大学苏州脑空间信息研究院首席科学家。骆清铭团队研发的显微光学切片断层成像系统(MOST)系列技术,为实现单神经…

AI大神LeCun深度学习公开课来啦!4万字干货笔记(附干货笔记下载)

来源:Datawhatle喜欢深度学习?最好的方法就是在线课程。这里推荐图灵奖得主、纽约大学教授Yann LeCun主讲的在线课程。该课程最重要的优点是,它集成了LeCun对深度学习的思考。通过这门课,学习者可以了解深度学习的现状&#xff0c…

这种由数学描述的现象,在自然中终于找到了

#创作团队:原文作者:Raphael Sarfati(科罗拉多州大学波尔多分校博士后副研究员)编译:Gaviota排版:雯雯#参考来源:https://theconversation.com/synchrony-with-chaos-blinking-lights-of-a-fire…