DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表

bef3673f4d60e31dec68400cb02b7cba.png

来源:AI科技大本营(ID:rgznai100)

编译:禾木木

谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是,游戏虽然缺乏明显的商业应用,但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。

与此前开发的游戏系统不同,DeepMind 创建了一个名为 Player of Games 的系统,是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法。与 DeepMind 之前开发的其他游戏系统,如国际象棋冠军AlphaZero和星际争霸 II 的 AlphaStar 不同,博弈者可以在完全信息游戏(例如中国围棋和国际象棋)和不完全信息游戏(例如,扑克)中表现出色。

无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像 Player of Games 这样的系统,能推断其他人的目标和动机,使其与他人成功合作。

538f6b98b44fa352b42f979052023e13.png

不完全对完全

不完全信息游戏的信息在游戏过程中对玩家是隐藏的,相比之下,完全信息游戏在开始时会展示所有的信息。

要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。

DeepMind 称,Player of Games是首个“通用且健全的搜索算法”,在完全和不完全的信息游戏中都实现了强大的性能。

Player of Games 有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,就没有那么厉害。系统需要考虑每个玩家在游戏中的所有可能观点。虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可以有很多这样的视角,例如,扑克大约有 2,000 个。此外,与 DeepMind AlphaZero 的继任者 MuZero 不同,Player of Games 也需要了解它所玩的游戏规则,而 MuZero 可以即时掌握完全信息游戏的规则。

在其研究中,DeepMind 在国际象棋、围棋、德州扑克和战略棋盘游戏《苏格兰场》上的表现,评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练。对于围棋,它在 AlphaZero 和 Player of Games 之间设置了 200 场比赛,而对于国际象棋,DeepMind 则让 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在内的顶级系统进行了较量。Player of Games 的德州扑克比赛使用公开可用的 Slumbot 进行,该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛。DeepMind 的合著称为“PimBot”。

eddb76697f0ab78fa64a6c7348eacf31.png

在国际象棋和围棋中,Player of Games 被证明在某些配置中比 Stockfish 和 Pachi 更强大,并且它在对抗最强的 AlphaZero 系统时赢得了 0.5% 的比赛。尽管在对阵 AlphaZero 的比赛中损失惨重,但 DeepMind 认为 Player of Games 的表现达到了“顶级人类业余爱好者”的水平,甚至可能达到了职业水平。

结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。

同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它。

c80df214be817acd10daefdc6ce116cf.png

未来

Schmid 相信 Player of Games 是向真正通用的游戏系统迈出的一大步。

实验的总体趋势是,随着计算资源增加,该算法的性能会更好,Schmid 预计这种方法将在可预见的范围内扩展未来。

“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。”他谈道,“让这些算法更加通用是一项令人兴奋的研究。”

参考链接:

https://venturebeat.com/2021/12/08/deepmind-makes-bet-on-ai-system-that-can-play-poker-chess-go-and-more/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

23ff9b38829e08d44490b85613cccddf.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OO第四单元——UML及其解析器——总结 暨 OO课程大总结

第四单元总结 第四单元主要内容是写代码解析UML,因此需要理解UML UML相关 starUML的储存方式是一个.mdj文件,通过使用文本编辑器观察这个文件,我们可以看出这是一个json格式储存的文件。 通过把.mdj后缀名改为.json,可以更加直观地…

Nature重要新发现:将运动小鼠的血液输入久坐小鼠中,可以改善大脑功能!

来源:生物通 斯坦福大学医学院的研究人员已经表明,大量锻炼的成年小鼠的血液对年龄相同、久坐不动的小鼠的大脑有益。运动小鼠血液中的一种蛋白质似乎是主要原因。Tony Wyss-Coray一项新的研究表明,有可能把跑马拉松的小鼠对大脑的好处转移到…

软件构造-犯错的艺术——健壮性与正确性,异常,防御式编程,debugging与test的思考与总结...

健壮性与正确性 健壮性与正确性是不同的——一个倾向于使程序尽可能保持运行,即使遇到错误,一个倾向于使程序尽可能正确,不在意保持运行 异常 异常分为两种——checked exception与unchecked exception 二者的区别在于: checked e…

地球系统科学简史:理解地球复杂性的多学科探索历程

来源:集智俱乐部作者:Will Steffen, Katherine Richardson等人 译者:晏丽 审校:张澳 编辑:邓一雪 导语我们的地球是一个有生命的有机体,不仅有大气、陆地、海洋之间的物理化学过程,生物也会对环…

数值微分

像这样的由全部变量的偏导数汇总而成的向量称为梯度(gradient),梯度可以像下面这样来实现,这里使用的是用数值微分求梯度的方法。 def numerical_gradient(f, x):h 1e-4 # 0.0001grad np.zeros_like(x) # 生成和x形状相同的数组for idx in …

数据结构与算法——哈希表与字符串

文章目录1.预备知识1.1 最简单的哈希——统计字符个数1.2 哈希表排序整数1.3 哈希映射的问题2.最长回文串2.1 题目描述2.2 C代码实现3.单词规律3.1 题目描述3.2 算法思路3.3 C代码实现4.字母异位词分组4.1 题目描述4.2 算法思路4.3 C代码实现5.无重复字符的最长子串5.1 题目描述…

Science重磅:DeepMind再获突破,用AI开启理解电子相互作用之路

来源:学术头条作者:青苹果编辑:hs排版:李雪薇当电子问题遇到了神经网络,会碰撞出什么样的火花呢?DeepMind 的最新研究向我们揭晓了答案。刊登在最新一期 Science 论文 Pushing the frontiers of density fu…

腾讯-地图:腾讯位置服务

ylbtech-腾讯-地图:腾讯位置服务1.返回顶部 2.返回顶部3.返回顶部4.返回顶部5.返回顶部 1、https://lbs.qq.com/product/miniapp/customized/2、6.返回顶部作者:ylbtech出处:http://ylbtech.cnblogs.com/本文版权归作者和博客园共有&#xff…

2022年六大值得关注的边缘计算趋势

来源: 边缘计算社区关于边缘计算的许多方面并不新鲜,但它仍在快速发展。例如,“边缘计算”包括已经存在了几十年的分布式零售商店分支系统。这个术语也包含了当地工厂和电信提供商计算系统的各种形式,尽管这是一种比历史规范更紧密…

RateLimiter的 SmoothBursty(非warmup预热)及SmoothWarmingUp(预热,冷启动)

SmoothBursty 主要思想 记录 1秒内的微秒数/permitsPerSencond 时间间隔interval,每一个interval可获得一个令牌 根据允许使用多少秒内的令牌参数,计算出maxPermits setRate时初始化下次interval时间,及storedPermits acquire时,计算当前now…

未来已来:全球XR产业洞察

来源:德勤Deloitte编辑:蒲蒲近日,德勤中国科技、传媒和电信行业推出元宇宙系列报告《元宇宙系列白皮书—未来已来:全球XR产业洞察》,聚焦XR产业发展趋势。报告指出,多元融合是元宇宙的演变趋势。在元宇宙发…

谷歌、哈佛联手绘出「百万分之一」人脑神经3D连接图!天量数据竟可塞满14亿块1T硬盘...

来源:神经科技编辑:Yezi审阅:mingzlee7前不久,谷歌和哈佛大学联手发布人脑神经3D连接图,涵盖人脑一百万分之一的信息,但数据已经塞满了1400块1T硬盘!现在,这个研究团队表示&#xff…

python replace()

转载于:https://www.cnblogs.com/JackFang-X/p/11090449.html

解决表单提交的数据丢失问题

解决表单提交的数据丢失问题: 一、问题描述: 当我们在给前台页面设置修改功能的时候,因为有些信息是不允许进行修改的,所以在修改表单中没有相应的修改输入框,但是在修改表单的数据提交的时候,那些不允许修…

科学家即将揭示人类大脑神经网络结构的奥秘

来源:今日头条人类即将迎来了解大脑神经网络结构神秘世界的曙光!哈佛大学神经科学家和谷歌工程师,发布了第一张人类大脑部分的神经网络连接图,大约针头大小的人类大脑组织用重金属染色,切成 5,000,并在电子…

温故而知新,6位顶级CV科学家聚首:计算机视觉中的深度学习方法vs传统方法...

来源:AI科技评论作者:Mr Bear编辑:青暮2021 年 10 月 13 日,来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为…

卷积神经网络(CNN)数学原理解析

来源:图灵人工智能作者:Piotr Skalski编辑:python数据科学原标题:Gentle Dive into Math Behind Convolutional Neural Networks翻 译: 通夜(中山大学)、had_in(电子科技大学&#…

大脑研究正在挑战超级计算,“人脑计划”或需提前部署百亿亿级超级计算机...

来源:DeepTech深科技人脑的复杂性正推动着超级计算释放更多的潜力。据了解,人脑包含大约 860 亿个神经元,可形成数万亿个接触点。如果以细胞分辨率对整个大脑进行成像,甚至会产生数 PB 范围内的数据,这样的的计算量令人…

02 算术、字符串与变量(1)

本章内容 1、交互式命令shell 2、整数算术 3、浮点算术 4、其他数学函数 5、字符串 6、字符串拼接 7、获取帮助 8、类型转换 9、变量和值 10、赋值语句 11、变量如何引用值 12、多重赋值 -------------------------------------- 在学习Python前,我们需要了解数据类…

【数据结构基础】-线性表的顺序实现(数组实现)基本操作

2019.10.10 【数据结构-线性表的顺序结构】 基本操作:初始化,判断是否空表,清空表,获取表中的第i个元素,查找元素,插入元素,删除元素,获取表的元素个数。 抽象数据类型&#xff1a…