AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡

Root 林鳞 编译自 DeepMind官方博客
量子位 出品 | 公众号 QbitAI


随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。


刚刚,DeepMind发表了一篇名为Symmetric Decomposition of Asymmetric Games的论文。在这篇论文中,DeepMind研究人员采用了博弈论的分支试图这个问题。


研究人员重点观察了在德州扑克,棋盘游戏苏格兰特警等非对称博弈中,两个智能体会有怎样的行为和表现。


用这种新方法,智能体能简单快速地在复杂的非对称博弈里找到纳什均衡。


博弈与纳什均衡


博弈论属于数学的一个分支,用于分析竞争环境下决策者的策略。


这套理论适用于人类,动物,以及超过一个AI时的多AI环境。比如说家里多个机器人同时打扫房间。


非对称信息博弈模拟了真实世界的场景,就像拍卖时买家和卖家的心态和动机不同。我们得到的结果给了我们独道的见解,以及极其简洁的方式分析他们。


非对称博弈的特点是每方玩家都有不同的策略、目标和奖励。比如说博弈论研究里最常见的协调博弈,性别之战。


一般来说,多AI系统的进化动态过程是用简单的对称博弈来分析,比如说经典的囚徒困境,两方玩家都可以采取同样的行动。即使这些博弈能够为多AI系统提供有效的洞见,告诉我们如何操作所有玩家才能获得最优结果(这就是纳什均衡),但他们并不能模拟出所有的情况。


DeepMind的新的方法,能简单快速地在复杂的非对称博弈里找到纳什均衡。


虽然目前这套理论的重点还在如何应用在多个AI系统的互动中,但研究人员相信这个结论也可以用于经济、进化生物学、经验博弈论中。


歌剧还是电影?


举个例子吧。


两名玩家需要决定晚上是去看歌剧还是电影,不巧的是,其中一名偏好歌剧而另一名偏好电影。这是场不对称的游戏,虽然两名玩家可以任意选择,但是根据玩家的喜好,每个玩家得到奖励是不同的。


但是,为了维持他们的友谊,或者我们称为一种平衡,双方需要选择相同的活动,因此单独行动的回报为零。



这个游戏有三个平衡:(i)双方都去看歌剧,(ii)双方去看电影,(iii)还有一个混合选项,每个玩家在五分之三的时间里选择他们喜欢的选项。


这个“不稳定的”的最后一个选项,就是用了将不对称游戏简化或分解成它的对称对等体的方法。


我们可以将这种游戏的本质想象成,每个玩家的奖励分数表是一个独立对称的双玩家游戏,它的平衡点与原始的不对称游戏一致。


在下面这张图中,纳什均衡是通过两个对等点得到的,帮助我们快速确定不对称博弈中的最优策略(a)。反过来说,利用不对称博弈来确定对称对等点的均衡。


△ 红点代表纳什均衡。对于不对称的游戏(a),纳什均衡可以很容易地从(b)和(c)两张对称图中得到。上述图中,x、y轴分别为玩家1、2选择歌剧的概率


好消息是,这种方法也适用于其他游戏,比如Leduc扑克等。这些方法应用了一个简单的数学原理,从而快速直接分析不对称游戏。我们希望它也能帮助我们理解各种动态系统,包括多代理环境。


最后,附论文地址:


https://www.nature.com/articles/s41598-018-19194-4


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php ie 下载 乱码,php ie下载文件名乱码怎么办

php ie下载文件名乱码的解决办法:1、通过header方法解决乱码;2、通过“function remote_filesize($uri,$user,$pw) {...}”等方法解决乱码。php文件下载IE文件名乱码问题一直用chrome浏览器,没发现问题。今天用ie6,发现文件下载时…

无人驾驶技术排名:百度居中游,苹果特斯拉垫底 | 行业

来源:网易科技概要:其调查研究显示,无人驾驶汽车行业的现状已经发生了天翻地覆的变化,而特斯拉、苹果公司在今年的排名垫底。1月17日消息,据CNET网站报道,日前,美国市场研究机构Navigant Resear…

h5 换脸 php,【部分原创】python实现视频内的face swap(换脸)

1.准备工作,按博主的环境为准Python 3.5Opencv 3Tensorflow 1.3.1Keras 2cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装那就先安装起来,有兴趣的朋友给我个暗示,好让我有动力写下去,想实现整套…

接口隔离原则(ISP)

接口隔离原则(The Interface Segregation Interface) 这个原则用来处理“胖(fat)”接口(类的接口不是内聚的)所具有的缺点。“胖”接口可以分解成多组方法。 考虑一个安全系统,有一些Door对象&a…

马歇尔·赫伯特:人工智能的前沿技术与实例分析

来源:中国人工智能学会2017年12月11日,国际知名机器人专家、美国卡耐基梅隆大学机器人研究所所长马歇尔赫伯特(Martial Hebert)教授和首席科学家大卫伯恩(David Bourne)教授访问了中国科学技术大学参观中科大机器人实验室并作演讲。演讲人简介&#xff1…

php xssclean,php – Codeigniter xss_clean困境

基本上XSS是一个OUTPUT问题 – 但Codeigniter将其作为INPUT问题处理.Can someone elaborate how it’s bad…问题是xss_clean会改变你的INPUT – 这意味着在某些情况下(比如你所描述的密码问题)输入不是预期的.…or at least give 1 most probable scenario where it can be ex…

ActiveMQ消费者平滑关闭

平滑关闭的思路就是让正在执行的任务线程正常执行完毕,然后再关闭JVM。在JVM关闭之前触发一个shutdown hook,jvm自带这个hook,在java启动时候就可以注册这样的hook。 ##1、简述JVM关闭钩子(shutdown hook) 首先JVM的关…

二叉堆时间复杂度 php,二叉堆(Binary Heap)

二叉堆这个数据结构有点意思,自己做了个总结,内容结构如下:二叉堆性质二叉堆操作应用二叉堆性质:堆(Heap)是一个可以被看成近似完全二叉树的结构,具有完全二叉树的特性:缺少的叶子节点总是位于右子节点n个节…

产业丨一文读懂人工智能产业链,未来10年2000亿美元市场

来源:国防科技信息网概要:针对人工智能产业链,主要有三个核心:基础技术、人工智能技术及人工智能应用,本文将从主要从这三个方面进行梳理。人工智能(Artificial Intelligence),英文缩…

Java获取并Kill系统进程

原理:获取系统所有进程列表,遍历,然后进行模糊匹配,将匹配到的进程杀死! 作用:保证在系统中只有一个程序进程实例。 /*** 确保系统中只有一个程序实例* 1.如果客户端启动前,操作系统中有残留进…

2017年高性能计算领域的成功与失败

来源:中科院信息科技战略情报概要:2017年,机器学习和各种人工智能应用在高性能计算领域持续发挥着重要影响力。2017年12月9日,TOP500官网刊文总结了高性能计算在2017年取得的新进展,以及未来发展趋势,主要内…

php保存rar,php 解压rar文件

对于zip文件网上的例子很多,rar文件解压php没有直接支持,可以用pecl 到http://pecl.php.net/package/rar 下载对应版本的 非线程安全的dll 然后扔到php的 ext目录下。 打开php.ini. 加一行 extensionphp_rar.dll 重启web服务器 和php public function _u…

ProcessBuilder执行bash脚本

我正在尝试从Java执行bash脚本,它返回错误/ bin / bash:’/ home / nika / NetBeansProjects / Parallel Framework / process-executor.sh’:没有这样的文件或目录,我正在使用ubuntu使用netbeans8& 14.04 jdk8. 这是我的代码: public …

php读取云平台数据库,读取Read · ThinkPHP5+数据库和模型 · 看云

#### Db类实现读取单个记录~~~$user Db::table(user)->where(id, 1)->find();//或者$user Db::table(user)->find(1);echo $user[id];echo $user[name];~~~模型实现读取单个记录要比Db类简单很多,而且更加符合对象的设计。~~~$user User::get(1);echo $…

Science封面:谁动了我的DNA?原来是你拿去做机器人了

来源:机器人大讲堂概要:慕尼黑工业大学的Friedrich C. Simmel团队使用DNA分子,组装出了一个可以远程控制的纳米机械臂,并用它成功推动了一个纳米金颗粒。本周《Science》期刊的封面故事,介绍了一款德国制造的灵活DNA手…

Process 执行shell 脚本

概述: Process类是一个抽象类(所有的方法均是抽象的),封装了一个进程(即一个执行程序)。 Process 类提供了执行从进程输入、执行输出到进程、等待进程完成、检查进程的退出状态以及销毁(杀掉&a…

中国倒数第五!毕马威全球自动驾驶报告|附下载

来源:智东西概要:指向高效、安全的自动驾驶被认为是未来汽车形态,渐渐融入到各国汽车发展战略中去,科技公司和传统车企纷纷入局。指向高效、安全的自动驾驶被认为是未来汽车形态,渐渐融入到各国汽车发展战略中去&#…

java 实现中文排序,Java自定义比较器实现中文排序

compareTo 方法compareTo()是两个字符串对象比较大小,返回一个整数值,如果调用字符串对象大,返回正整数,反之,返回负整数。相等则返回0。compareTo()是两个字符串对象按ASCII比较大小(汉字是Unicode),返回一…

java调用shell脚本及注意事项

需求: get方法下载远程zip包,然后zip包解压,取出第一级目录再次进行压缩获取新的压缩zip包。 问题: 如果选择使用java代码的IO流操作,在不确定zip包大小的情况下可能会占用很大的内存,所以选择异步调用s…

潘建伟团队进行人类首次洲际量子通信,给奥地利发去了什么?

来源:澎湃新闻概要:世界首颗量子通信实验卫星完成目标;世界首条量子保密通信“京沪干线”开通;世界首次洲际量子通信……世界首颗量子通信实验卫星完成目标;世界首条量子保密通信“京沪干线”开通;世界首次…