沈浩:博弈论在人工智能中的应用


转自 ∑ 沈浩老师

最近看到一篇不错的文章,让沈雨尘帮助整理一下,与同学们分享!

概览

  • 什么是博弈论?它是如何应用到人工智能(AI)中的?

  • 人工智能中的博弈论是一个迷人的概念,每个人应该有一定了解。

  • 我们希望通过使用案例说明对博弈论进行了深入研究,并将其关联到人工智能方面。

引言

让我们从一个简短的问题开始 —— 你是否认识下图中的两人?

相信你一定认识其中的一个。对于大多数早期数学爱好者来说,电影《美丽心灵》一定会烙印在我们的记忆中,而诺贝尔经济学奖得主,罗素·克劳(上图左)就在电影中扮演主角之一的约翰·纳什。

在那个标志性的场景“不要追求金发女郎”中,约翰·纳什引用道:

“….the best outcome would come when everyonein the group is doing what’s best for himself and the group.”

(当团队中的每一个人都在做对自己和团队有利的事情时,就会得到最好的结果。)

许多人认为,这标志着著名的“纳什均衡”的发现。这的确是标志性的,但并不完全正确。实际上,这个场景描绘的是“帕累托最优”的发现过程,但它仍有助于我们理解博弈论。

在本文,我们将鸟瞰博弈论,并将讨论如何将博弈论应用于人工智能领域的基本思想。我们将以即使是初学者和非技术人员也可以理解的方式进行解释。

目录

  1. 什么是博弈论?

  2. 博弈论中的纳什均衡

  3. 博弈的种类

  4. 人工智能中的博弈论

  5. 博弈论小测验!

什么是博弈论?

所以,什么是博弈论?相信你一定接触过这个概念,但可能从没有真正深入其中。不过,现在的人工智能领域中,这是个有趣且具有启发性的主题。

让我们先给博弈论一个正式的定义。

“博弈论可以被定义为 —— 对两个或两个以上的理性Agents或参与者之间可能的相互作用的建模。”

本文中,我们将Agent理解为一个主体(行为人)。

在博弈论中,我们必须强调“理性”这个关键词,因为它是博弈论的基础。但是“理性”究竟是什么意思?

我们可以简单的将“理性”理解为,每个主体(Agent)都知道其他主体也是理性的,并且拥有与该主体同等的理解与知识水平。

此外,“理性”也意味着,在考虑到其他主体行为前提下,该主体总倾向于得到更高的报酬或回报。

简而言之,每个主体都是自私的,并试图将回报最大化。

“我知道,你知道我知道你是理性的”(左),“是的,我知道”(右)

既然我们了解了“理性”的意义,让我们来处理一些与博弈论有关的关键词:

  • 博弈:一般来说,博弈包括一系列的玩家、动作、策略和最终的报酬,例如拍卖、国际象棋、政治问题等等

  • 玩家:玩家是参与博弈的理性主体。

    例如,

  • 拍卖中的竞标者

  • 玩石头剪刀布的玩家

  • 参加选举的政治家等

  • 报酬:报酬是所有玩家在达到某种结果时的得到的回报,它可以是积极的,也可以是消极的。正如我们之前所讨论的,每个主体都是自私的,希望得到最大化的报酬:

“选举中,党派得到的席位数”(左),“成功的手术台数”(中),“是否能成为族群领袖(右)”

博弈论中的纳什均衡

纳什均衡是人工智能博弈论的“基石”。纳什均衡是一个由玩家选择的行为:

“没有一个玩家愿意改变他们的行动,不使自己处于纳什均衡,意味着没有发挥到最佳状态。一旦玩家违背纳什均衡,就意味着,对方将有机会改变策略使你的收益变差。”

或可以如此理解“考虑到其他所有主体都是理性的,他们会为自己选择最佳的行动,那么达到纳什均衡的行为,对我来说就是最佳对策。”

为了了解行为中的纳什均衡,让我们来解决博弈论中最常见的问题:囚徒困境。这是一个经典的案例,它说明了在主体只关心自身利益的情况下,为了共同利益或互惠而合作行动是十分困难的。

在这个案例中,存在两个犯人,Alan和Ben,他们因同一罪行而被捕,并被关押在两个不同的审讯室。他们有两个选择:

  1. 保持沉默

  2. 承认罪行

假设他们都做出了选择,那么,就会产生4种不同的结果:

·  {沉默,沉默}

·  {承认,沉默}

·  {沉默,承认}

·  {承认,承认}

这四种结果可以很方便地用博弈矩阵来表示:

在这种表示中,收益以(Alan收益,Ben收益)的形式表示。我们以列表示Alan的选择,行表示Ben的选择。

他们的选择都将导致负收益,因为根据选择,他们将被监禁的时间是预先确定的(尽管不是他们所希望的)。

结果收益如下:

  1. 如果他们都保持沉默,则都将被监禁1年

  2. 如果其中一人承认罪行,而另一人沉默,则坦白者将被释放,而另一人将被判处15年监禁

  3. 如果两人都承认罪行,则他们都将被判处10年监禁

这个困境来源于两个囚犯都不清楚另一人的选择,那么在这个情况下,什么样的行动将达到纳什均衡?理想状况下,两个犯人将合作保持沉默。(红框中的选择)

但我们也知道,犯人一定希望自己被判处最少的监禁时间,以得到最大利益。因此,在即使保持沉默,也将被判处1年监禁的情况下,实际上会发生的将可能是:

              如果Ben承认了罪行,那么坦白是更好的选择(10年监禁好于15年监禁);同时,如果Ben保持沉默,那么坦白同样是最好的选择(释放好于1年监禁)                                                                                                     

我们可以看到,这个博弈矩阵与Alan所想的完美契合。那么,如果Ben如果也在进行博弈选择,他的博弈矩阵将是:

让我们假设Ben也像Alan一样经历了理性的思考过程。那么同样的,Ben将得到相似结论——无论Alan怎样选择,他总可以从坦白中受益。如果我们将两个囚犯的理性思考一起考虑,结果将是:

以结果来说,最好的对策是{承认,承认}。即使他们中的任何一个不采取这个行为,他们也只会得到比这个策略更糟糕的结果。因此,{承认,承认}是一个纳什均衡。

“因为都承认了罪行,我们要在监狱10年。如果我们没承认,就只需要1年”。                                                              

 “是的!但如果我不承认,你一样会为了不去监狱而承认。那么我就要去监狱15年。我很庆幸我承认了。”

很有道理,对吧?对于纳什均衡来说,我们可以得到:对于任何博弈,它都是一个“无悔”的解决方案,但却并不一定是最理想的。

博弈的种类

我们刚刚看到的是囚徒困境的一个例子,两个囚犯必须同时做出一个决定,用博弈矩阵的形式来表示。这些类型的博弈通常被称为“标准式博弈”。

在博弈论中,根据不同的标准,博弈可以分为许多不同的种类。

1. 主体之间的交互

直观上,我们可以根据博弈中的主体是以竞争还是合作为目标来区分博弈的种类。

政治竞选是竞争博弈的好例子,一个候选人的报酬就意味着另一个候选人的失败。另一方面,篮球比赛可以被看作是一场合作博弈,每个运动员彼此合作以赢得更多的回报。

2. 主体是如何运作的

我们也可以根据博弈的同时性和扩展性来进行分类。

为了理解这一点,我们可以以一个叫做“性别之战”的问题为例。

假设Bob和Amy是两个十分要好的朋友。他们很清楚彼此的爱好,足球和舞会。他们可以一起商量这个周末的游玩计划,或者给对方一个惊喜。如果他们都计划给对方惊喜,那么他们就不会知道对方的周末计划。以下博弈矩阵描述了4中不同的情况。

博弈矩阵清楚地表示,如果Bob和Amy没有成功碰面,那么他们都不会得到回报。这是一个同时性的博弈案例,在这个博弈中,两个玩家同时行动,并且事先不知道其他玩家的行动。

另一方面,如果他们告诉对方各自的计划来进行行动,博弈将成为以下形式:

我做出最初的决定, 因此我的决定节点在树顶。我可以在足球(左枝)和舞会(右枝)之间选择”。                    

“我有两个选择节点。但是一旦Amy告诉了我她的选择,那么将只有一个节点与我相关。如果她选择了舞会,那么我就会在该选择节点进行选择。”

这是一个扩展型博弈或“回合制博弈”的案例。在这种博弈中,每个玩家都可以看到对方的行动。

另一个更直观的例子,石头剪刀布游戏就是同时型博弈。另一方面,井字游戏就是扩展型博弈。

3. 基于信息的分类

在博弈论中,参与者往往不能得到完全的信息。他们可能不知道其他玩家的所有可能决策或潜在收益。玩家也可能不知道他们在和什么样的人打交道,或者他们的动机是什么。

根据对其他主体的了解程度,博弈可以大致分为三类:

    ·  完美信息博弈

    ·  不完美信息博弈

    ·  不完全信息博弈

完美信息博弈:(下左)

在完美信息情况下,每个主体都知道:

·  其他主体可以采取的所有可能行为

·  他们正在进行的行为

·  他们得到多少回报

井字游戏和国际象棋就是最好的例子。当涉及到现世界时,完美信息博弈是非常罕见的。此外,机器学习和深度学习方法在这种博弈中表现出色。

                  

不完美信息博弈:(上右)

在这种情况下,主体知道其他主体的性质和动机,以及在所有可能结果中会得到的回报。但不知道其他主体正在进行的行为。

这里,将军知道每一种可能情况下敌人的动机和回报。但是他无法知道敌人藏在哪里。因此,将军不知道他所在的确切决策节点(虚线框)。不完美信息博弈在现实世界中经常出现。

不完全信息博弈:

不完全信息是一种非常接近真实世界的模型。主体没有关于其他主体的“类型”信息。即使任意特定主体能够知道其他主体采取的行动,他也不知道其他主体的动机,或采取这种行动的回报。

本质上,不完全信息博弈是最广义的博弈形式。

扑克游戏是不完全信息博弈的一个典型案例,因为玩家不知道对手手中的牌是好是坏。

我们特别关注扑克游戏中的博弈,因为它不完全信息的性质很好地代表了真实世界。因此,不完全信息博弈问题一直被认为是人工智能领域的一个基准问题。

人工智能中的博弈论

那么,以上的一切在人工智能的背景下意味着什么。这些不同类型的博弈和信息与人工智能有什么关系呢?

就人工智能而言,博弈论的基本作用是帮助决策。考虑到“理性”是博弈论的基础这一事实,这并不是很难理解。实际上,博弈论已经开始在人工智能领域占据一席之地。

生成对抗网络(GANs)就是这样的一个重要应用。GANs被YannLeCun认为是:“过去20年中机器学习领域最酷的想法。”(Yann LeCun是人工智能和深度学习领域的领头人之一)。那么博弈论在GANs中是如何起作用的呢?

为了回答这个问题,我们首先要了解GANs的基础知识。一个GAN就是两个神经网络的组合,即:

    · 生成器

    · 鉴别器

生成器是一个产生随机图像的神经网络。另一方面,鉴别器将试图对生成的随机图像进行分类——应属于给出的数据集?或只是一个生成的假图像。

如果鉴别器将生成的图像分类为假图像,那么生成器将调整其参数;另一方面,如果鉴别器将生成的图像分类为来自数据集,那么鉴别器将调整其参数。

这种竞争过程将一直进行,并持续到无法再改进的状态。这个状态就是“纳什均衡”。从本质上讲,这是两个神经网络之间的竞争博弈,但在竞争中,它们不断的优化自己以得到纳什均衡状态。

博弈论的核心应用是不完美信息博弈。扑克游戏是一个经典的例子,也是人工智能应用在不完美信息状态下的基准问题。

在现实世界中,不完美信息是非常重要的。但至今为止,机器学习和深度学习在不完美信息博弈方面的成功十分有限。

德州扑克无限制版就是一个不完美信息博弈的案例,因为其他玩家隐藏了所持牌的信息。考虑到这个扑克游戏中,所持牌有10的161次方种可能,而可观测宇宙中的总原子数也只是10的82次方,可见这是一个非常具有挑战性的问题。

因此,使用暴力方法对这个游戏进行建模是完全不可能的。当然,也有人尝试过使用深度学习和深度强化学习,但到目前为止知识效果平平。

但是由卡内基梅隆大学的教授Tuomas Sandholm和人工智能研究员Noam Brown开发的,名为 Libratus的人工智能程序表现优于以前的任何方法。在超过20000手扑克牌中,Libratus战胜了世界冠军。Libratus的神奇之处在于它不使用任何机器学习的方法!

博弈论就是Libratus的核心思想。与深度学习和强化学习等相比,它并不需要极高的计算能力。为了更多地了解博弈论是如何应用到Libratus中的,以及博弈论在未来人工智能中的引用。

另一方面,人们经常争论机器学习和深度学习是否可以用于现实中的案例,因为现实世界中的案例往往是是不完全信息博弈,大多数机器学习和深度学习方法都会遇到很大困难。

博弈论方法方法由于其在现实世界中的普遍性而逐渐得势。最好的例子就是“AI For SocialGood”项目的负责人Milind Tambe所做的工作——利用博弈论概念处理现实世界中的问题,比如:

·  公共安全

·  野生动物保护

·  公共卫生等 

博弈论小测验

本文详细讨论了博弈论。就让我们以一个快速的突击测验来结束吧!

在0-100之间随机选择一个数字。如果你给出的数字是这次测验中所有玩家给出的数字平均值的三分之二,那么你就将获胜。(提示:你应该考虑其他玩家也和你一样理性)

你能回答这个问题吗?

结语

在这篇文章中,我们讨论了博弈论的基本原理,并简要地涵盖了必要的主题。我们甚至谈到了博弈论是如何被应用到机器学习领域的,以及它在现实世界中的应用。但这只是一篇介绍性的文章——在以后的文章中,我们将更深入地探讨博弈论,以及如何将其应用到人工智能领域,并从技术角度进行阐述。

注:大部分图片来自伊万帕斯汀的《介绍博弈论》一书。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

更新node_kubernetes证书更新

适用环境:kubeadm部署的k8s集群,默认证书位置为/etc/kubernetes/pki如果环境中证书目录为非pki(以ssl为例),则需创建对应软连接。本文以高可用集群为例(3 master)master节点:查看证书…

python 3 关于requests库的 text / content /json

最近在爬SDFDA的数据,刚开始用urllib.request 库,一直连不到数据 ; 后来通过CHROME浏览器的F12,发现该 网站用的是JSON格式{}Content-Type: application/json,},不同于以往的提交方式“Content-Type: text/html; chars…

Matlab论文插图绘制模板第132期—函数等高线填充图

在之前的文章中,分享了Matlab函数折线图的绘制模板: 函数三维折线图: 函数网格曲面图: 函数曲面图: 函数等高线图: 进一步,再来分享一下函数等高线填充图。 先来看一下成品效果: 特…

三星固态860evo安装_固态要涨价了?我赶紧屯了这几块好货

从2019年开始,固态硬盘的价格更加适合入手了,几乎已经成为了人们装机的首选,传统的机械硬盘则开始不受重视。到2020年,春节在家闲来无事,笔者发现一些硬盘已经开始有了一定幅度的涨价现象,为了不被请去喝茶…

全球技术竞争新态势

来源:《科技参考》 2019年第11期转自:科情智库技术作为经济增长最重要的驱动力之一,被各国政府视为重要的国家核心资产,围绕着技术的国际竞争也日趋激烈,主要呈现了以下5个特点:一是各国竞相谋划布局新兴和…

cnn输入层_多尺度CNN特征图的分析与应用

本文适用于那些参与CNN架构设计的工程师和研究人员,他们厌倦了盲目尝试和错误,可以从CNN主干中选择哪些特征图以改善其模型的性能,而宁愿从早期开始设计过程的步骤,以使特征图的空间比例轮廓与训练数据集中的对象尺寸相匹配。抽象…

从5G落地看2020年科技产业投资机会

来源:兴业证券015G 商用开展,通信建设、智能终端、云端服务等领域,出现周期性机遇2019 年全球 5G 移动网络陆续商用,将直接拉动通信行业资本开支,同时刺激联网终端的需求,为 AI 及云计算等应用铺路&#xf…

cat命令详解_需要!Linux常用监视和故障排查命令详解

作者:老油条IT记公众号:老油条IT记#命令预览1.top2.ps3.nice4.kill5.iostat6.mpstat7.vmstat8.df9.du10.netstat11.ss#首先我们先来了解一下什么是进程#进程:是Linux用来表示正在运行的程序的一种抽象概念,Linux系统上所有运行的东…

C语言二维数组找出交集,【leetcode C语言实现】剑指 Offer 04. 二维数组中的查找...

题目描述在一个 n * m 的二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。示例:现有矩阵 matrix 如下&#xf…

知识图谱从哪里来:实体关系抽取的现状与未来

来源:知乎(zibuyu9)作者:韩旭、高天宇、刘知远最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理…

线条边框简笔画图片大全_超治愈萌系手帐素材大全 美食旅游花草人物花边都备齐了...

现代人每天都生活在一个充满焦灼感的空气中,成年人的世界里,每个人都不容易。不论是生活还是工作,都充满了各种挫折。很少有人能一帆风顺,为学习、为工作、为家庭、为感情、我们总会在坎坎坷坷中成长,难免会觉得焦虑。…

红米android版本,微信红米低版本下载

微信红米低版本是适用于红米手机的低版本微信软件,此版本为7.0.0版,安装包不到一百兆,该有的功能也都挺齐全,很多用户对于微信新版本的内存占用不堪重负,那么这个历史低版本就很适合你,红米手机也能轻松兼容…

《2018-2019世界智能手机AI智商测试报告》发布会将在京举办

《2018-2019世界手机AI智商测试报告》发布会将于2019年11月21日在北京举行,本次发布会由中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室和天府大数据国际战略与技术研究院联合主办。智能手机作为人们与外界即时连接的终端设备&am…

软件需求分析文档模板_小议管理软件需求分析

从事管理软件设计,一般都是从用户需求分析开始。从事软件工作的,大概谁都知道需求分析的重要性,可能大部分人都吃过需求分析不充分的亏。兵法云,“谋定而后动”。对一个项目而言,需求分析应该是“谋”的一部分&#xf…

python日期格式转换_python中有关时间日期格式转换问题

每次遇到pandas的dataframe某列日期格式问题总会哉坑,下面记录一下常用时间日期函数.... 1、字符串转化为日期 str—>date import datetime date_str 2006-01-03 date_ datetime.datetime.strptime(date_str,%Y-&m-%d) 这是单个字符串的转化,其…

38页PPT深度解析:半导体设备产业链全景图

来源:平安证券要点摘要:1、我国半导体设备市场空间大,增长动力强劲。半导体设备主要用于半导体制造和封测流程,分为晶圆加工设备(核心为光刻机、刻蚀机、薄膜沉积设备)、封装设备和检测设备。2018年全球半导…

XGBoost参数调优完全指南(附Python代码)

XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/41354392 【以下转自知乎】 https://www.zhihu.com/question/45487317 为什么xgboost/gbdt在调参时为什么树的深度很少就…

科技基建,自主创芯——详解全球半导体制造行业格局

来源:芯潮今天推荐一份报告,详解全球半导体制造行业格局,本报告从以下几个角度进行分析:一、全球半导体制造市场规模及竞争格局全球半导体制造市场及行业格局中国半导体制造行业情况二、半导体制造制程技术分析28纳米是生命周期相…

python按行读取文件取消空白行_python去掉空白行的多种实现代码

测试代码 jb51.txt 1:www.jb51.net 2:www.jb51.net 3:www.jb51.net 4:www.jb51.net 5:www.jb51.net 6:www.jb51.net 7:www.jb51.net 8:www.jb51.net 9:www.jb51.net 10:www.jb51.net 11:www.jb51.net 12:www.jb51.net 13:www.jb51.net 14:www.jb51.net 15:www.jb51.net 16:www.…

android 大视图风格通知栏,Android中使用Notification实现宽视图通知栏(Notification示例二)...

Notification是在你的应用常规界面以外展现的消息。当app让系统发送一个消息的时候,消息首先以图表的形式显示在通知栏。要查看消息的详情须要进入通知抽屉(notificationdrawer)中查看。通知栏和通知抽屉html(notificationdrawer)都是系统层面控制的,你能…