博弈论学科整体概览

一、博弈论的概念

博弈论又被称为对策论(Game Theory)既是现代数学的一个新分支,也是运筹学的一个重要学科。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。博弈论已经成为经济学的标准分析工具之一。

二、博弈论的发展历程

博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论思想古已有之,中国古代的《孙子兵法》等著作就不仅是一部军事著作,而且算是最早的一部博弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。

博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。

近代对于博弈论的研究,开始于策梅洛(Zermelo),波莱尔(Borel)及冯·诺依曼(von Neumann)。

1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域,从而奠定了这一学科的基础和理论体系。

1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。此外,莱因哈德·泽尔腾、约翰·海萨尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。

三、博弈论的要素

(1)局中人:在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”。

(2)策略:一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。

(3)得失:一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。

(4)对于博弈参与者来说,存在着一博弈结果 。

(5)博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。所谓纳什均衡,它是一稳定的博弈结果。

四、博弈论的目的

博弈策略求解是博弈问题中的一个重要内容,另外一个重要的内容是博弈规则的设计:
  也就是说,假设博弈的参与者都是足够理性的,如何设计一个博弈规则能确保公正性或者达到设计者的最大利益。主要的难点是:规则复杂,计算量大。
主要应用于:

  • 拍卖竞价:互联网广告投放、车牌竞价
  • 供需匹配:污染权、学校录取
  • 公正选举:选举制度、表决制度、议席分配

五、稳定分配理论(stable matchings theory)

稳定分配理论是由2012诺奖获得者沙普利使用合作博弈的方法来研究和对比不同的匹配方法而创立的理论。该理论的难点在于要保证一个配对是稳定的。
稳定匹配的核心思想是实现一种稳定状态,在这种状态下,在匹配完结时不再存在这样两个市场主体,它们都更中意于他人,胜过它们当前的另一半匹配对象。在现实中,我们熟悉的8分钟相亲、学校和学生匹配等例子就是基于稳定市场匹配理论的思想发展而来的。其中双边模型延迟接受算法是稳定匹配理论的两块重要基石。
双边匹配模型很多市场及社会制度的主要功能就是让其中的主体能和另一个主体相匹配:例如,学生和学校,职员和公司,适婚男女之间。这种市场匹配主要分为单边市场匹配(Single-Sided MarketMatch)双边市场匹配(Two-Sided MarketMatch)

单边市场匹配”指市场中仅存在一个集合,集合中的个体根据各自的偏好相互匹配。然而,单边市场匹配中的“室友”现象会导致匹配的不稳定。当假设存在四个“室友”{1,2,3,4},其中1最偏好2,2最偏好3,3最偏好1,且他们把4都列为最不偏好者。在这种情况下,任何两两分组都无法实现稳定,因为和4分在一起的人会结束当前匹配去和已经匹配的人再次匹配,且这次新的匹配将会成功,使得市场一直无法实现稳定(Gale&Shapley,1962)。
双边匹配模型”最早由Gale和Shapley(1962)从研究学生申请学校模型和婚姻稳定问题而提出。所谓的“双边市场”是指存在这样一个市场,市场中有两类个体集合,第一类集合中的个体只能和第二类集合中的个体相匹配。他们证明了在这样一个双边市场中,只要个体的偏好具有完备性及可传递性,以及市场足够的自由,能允许个体进行任何潜在可能的匹配,那么市场中总是存在稳定匹配。同样以4个室友为例,假设任意2个人睡上铺,2个人睡下铺,现在要求只有睡不同铺的人相互匹配,此时就形成了双边市场匹配模型。同时,Gale和Sha-pley指出市场匹配稳定时满足以下两个条件:(1)市场中不存在来自不同类的两个个体在偏好上可以实现相互匹配,但没有匹配的情况;(2)已经配对成功的个体不会尝试结束当前的配对,并试图与来自另一类且已匹配成功的个体进行匹配。
双边匹配模型存在稳定匹配这一特性,使得其在理论和实践上都得到了广泛的关注,其中一个重要的运用就是劳动力市场的匹配。Shapley和Shubik(1972)利用数学模型抽象了一个充斥着不可分割商品的双边市场,市场中的每一位参与者既是商品的需求者也是商品的供给者。他们发现在这更为一般化的市场中匹配稳定的性质依旧很稳健。
  Roth最早对双边匹配模型在解决实践问题中的应用进行了研究。他意识到Shapley有关稳定市场匹配的理论和计算可让市场的运作方式变得更清晰。20世纪50年代,美国内科医生的初级劳动力市场的组织方式能保证绝大多数个体匹配成功,但这种匹配缺乏稳定性。Roth(1984)的后续实验研究将Shapley的匹配设计应用于内科医生的初级劳动力市场,他的研究结果表明该种匹配方法能减少原有组织方式下所产生的匹配不稳定及其它存在的无序问题。

G-S算法(Gale-Shapley)

在规则设计里面有不同的算法,比方说有GS算法:
在生活中,人们通常会碰到与资源匹配相关的决策问题(如求职就业、报考录取等),这些需要双向选择的情况被称为是双边匹配问题。在双边匹配问题中,需要双方互相满足对方的需求才会达成匹配。
1962年,美国数学家大卫·盖尔和博弈论学家沙普利提出了针对双边稳定匹配问题的解决算法,并将其应用于稳定婚姻问题的求解。
稳定婚姻问题(stable marriage problem)是指在给定成员偏好的条件下,分两组成员寻找稳定匹配。由于这种匹配并不是简单地价高者得,所以匹配解法应考虑双方意愿。
稳定婚姻问题的稳定解是指不存在未达成匹配的两个人都更倾向于选择对方胜过自己当前的匹配对象。

最大交易圈算法(Top-Trading Cycle algorithm)

匹配问题中,还有一类交换不可分的的标的物的匹配问题,被称为单边匹配问题,如远古时期以物易物、或者宿舍的床位分配。
1974年,沙普利和斯夫提出了针对单边匹配问题的稳定匹配算法:最大交易圈算法(TTC),算法过程如下:
首先每个交易者连接一条指向他最喜欢的标的物的边,并从每一个标的物连接到其占有者或者是具有最高优先权的交易者。
此时形成一张有向图,且比存在交易圈,对于交易圈中的交易者,将每人指向节点所代表的标的物赋予其,同时交易者放弃原先占有的标的物,占有者和匹配成功的标的物离开匹配市场
接着从剩余的交易者和标的物之间重复进行交易圈匹配,直到无法形成交易圈,算法停止。

室友匹配问题

在这里插入图片描述在这里插入图片描述

六、博弈论的类型

博弈的分类根据不同的基准也有不同的分类。

一般认为,博弈主要可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。

从行为的时间序列性,博弈论进一步分为静态博弈、动态博弈两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。通俗的理解:"囚徒困境"就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈。

按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中,每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。

经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈。与上述四种博弈相对应的均衡概念为:纳什均衡(Nash equilibrium),子博弈精炼纳什均衡(subgame perfect Nash equilibrium),贝叶斯纳什均衡(Bayesian Nash equilibrium),精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

博弈论还有很多分类,比如:以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈;以表现形式也可以分为一般型(战略型)或者展开型;以博弈的逻辑基础不同又可以分为传统博弈和演化博弈。

下面列举了一些我们经常会提到的博弈模型,可以作为入门的兴趣导师——

智猪博弈——搭好顺风车,借力成事

Boxed pigs game, 一个著名的纳什均衡的例子

枪手博弈——对比关系及策略决定强弱

囚徒困境——个人理性与集体的非理性

Prisoner’s Dilemma, 是博弈论的非零和博弈中具代表性的例子,反映個人最佳選擇並非团体最佳選擇

斗鸡博弈——狭路相逢勇者未必胜

Chicken Game,又叫草鸡博弈、懦夫博弈、胆小鬼博弈

分蛋糕博弈——讨价还价的策略

以牙还牙——有一种智慧叫宽恕

Tit for tat,是一个用于博弈论的重复囚徒困境(Reiterated Prisoner’s Dilemma)非常有效的策略

鹰鸽博弈——路径依赖法则新解

Hawk Dove game ——进化中的路径依赖
该模型的两个纯策略均衡类似于胆小鬼博弈,而混合策略均衡则导出了进化稳定策略的概念。此外还有不完全信息条件下的贝叶斯博弈版本。

蜈蚣博弈——从后往前的推理

Centipede game

猎鹿博弈——合作是硬道理

Stag Hunt Game, 又称猎鹿模型(Stag Hunt Model)、猎人的帕累托效率

酒吧博弈——求同存异的智慧

Bar Problem

鲇鱼效应——有竞争才有发展

Catfish Effect

重复博弈——冲突与合作方能共享

Repeated Games, 是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
重复博弈所指的是一类特殊的扩展形式的博弈(extensive form game)。此类博弈中包含一个基础博弈(base game)——称为阶段博弈(stage game);在整个重复博弈中,该阶段博弈会被重复一定次数。阶段博弈一般是一个大家熟悉的博弈(如囚徒困境)。类似的,非重复博弈也可称为单一阶段博弈(single stage game)或单次博弈(single shot game)。

协和谬误——欲罢不能的错上加错

Coordination Problem, 即某件事情在投入了一定成本、进行到一定程度而后发现不宜继续下去,却苦于各种原因而将错就错,欲罢不能

信息甄别——酒好不怕巷子深

人质困境——雪上加霜的囚徒困境

脏脸博弈——都是共同知识惹的祸

成本博弈——摆脱沉没成本羁绊的策略

手表定律——标准不同结论就不同

Watch Law

策略均衡——谁也不得罪

strategy equilibrium

本文部分选自
作者:深度学习与先进智能决策
链接:https://juejin.im/post/5e33cf9f5188252c5232b039
来源:掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 进程组id 错乱,【Linux】终端,进程组,作业,会话及作业控制

终端概念在UNIX系统中,用用户通过终端登录系统后得到一一个Shell进程,这个终端成为Shell进程的控制终端 (Controlling Terminal),控制终端是保存在PCB中的信息,而我们知道fork会复制PCB中的信息,因此由Shell进程启动的其它进程的控制终端也是这个终端。默认情况 下(没有重定向)…

纳什均衡

纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰纳什命名。 定义 经济学定义 数学定义 纳什均衡的定义:在博弈G﹛S1,…,Sn:u1,…&#x…

奇异值分解(SVD)原理与在降维中的应用

奇异值分解 奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的…

自相关函数与互相关函数

1 概念 1 自相关函数 2 互相关函数 从定义式中可以看到,互相关函数和卷积运算类似,也是两个序列滑动相乘,但是区别在于:互相关的两个序列都不翻转,直接滑动相乘,求和;卷积的其中一个序列需要先…

Linux as4开启telnet,linux as4 虚拟机 上开启 telnet 和ssh 和 ftp 服务

1.telnet服务开启(1)输入[rootrehat ~]# chkconfig krb5-telnet --listkrb5-telnet on这是你的服务存在的状态,如果没有的话,可能是你的telnet名字和我的不一样,也可能是你的那个rpm包没有安装。我第一次的Linux中是没有安装的&#xff0…

5G的场景、需求、通信速率

5G三大典型场景 5G有三大典型场景,这三大场景描述了5G的需求也反应了5G与4G的不同,如图所示,三大场景分别为:增强型移动宽带通信(eMBB),大规模机器型通信(eMTC)和超高可…

linux7禁用ipv6,RHEL 7 及 CentOS 7 彻底禁用IPv6的方法

原标题:RHEL 7 及 CentOS 7 彻底禁用IPv6的方法IPv6在未来可能成为主流,但是就目前而言,很多软件对IPv6的支持并不是很完善,可能导致各类问题。RHEL 7 & CentOS 7 在启动时默认是加载IPv6相关模块的,而禁用IPV6的方…

宏基站、分布式基站、小基站

基站即公用移动通信基站,是无线电台站的一种形式,是指在一定的无线电覆盖区中,通过移动通信交换中心,与移动电话终端之间进行信息传递的无线电收发信电台。 目前,在 5G时代 ,“ 宏基站 为主, 小…

struts2面试问题_Struts2面试问答

struts2面试问题Struts2是用Java开发Web应用程序的著名框架之一。 最近,我写了很多Struts2教程 ,在这篇文章中,我列出了一些重要的Struts2面试问题以及答案,以帮助您进行面试。 什么是Struts2? Struts1和Struts2之间…

什么是Mesh网络

网络间的通信原理 假设你的名字叫小不点,你住在一个大院子里,你的邻居有很多小伙伴,在门口传达室还有个看大门的李大爷,李大爷就是你的网关。当你想跟院子里的某个小伙伴玩,只要你在院子里大喊一声他的名字&#xff0…

根据谁创建资源授权资源

我的一位同事向我提出了一个关于StackOverflow的有趣问题,并由于我在Spring方面的经验,建议我回答一个很好的问题。 问题是:“ 如何基于使用注释在REST中创建资源的用户来授权特定资源 。” 要点是: 我想做的是创建一个名为Aut…

netbeans7.4_NetBeans 7.4的本机Java打包

netbeans7.4成为“ NetBeans 74 NewAndNoteworthy ”页面的NetBeans 7.4的新功能之一是“本机打包 ”,在该页面上被描述为“ JavaSE项目现在支持使用JavaFX提供的本机打包技术来创建本机包。 ” 我将使用一个非常简单的示例来演示NetBeans 7.4中的本机打包功能。 下…

斯坦纳点/树、泰森多边形

斯坦纳点 斯坦纳点别名正等角中心、费尔马点、斯坦纳点 在三角形的三边各向其外侧作等边三角形,这三个等边三角形的外接圆交于一点T,该点T即称为托里拆利点(Torricelli’s point ),而三个等边三角形的外接圆称为托里拆…

FXRibbon 1.2版发布

这次,有所不同。 Microsoft对FXRibbon的更新,就像Java的功能区控件(JavaFX)一样 。 在发出使FXRibbon做好更好的准备以将其更新到Java 9以及更高版本的要求之后,我借此机会还添加了一些功能,进行了一些美学…

c语言链表写贪吃蛇思路,C语言构建的链表贪吃蛇

用C语言链表写的贪吃蛇(程序设计时做的,做的不好大佬勿喷)借助游戏内容分析贪吃蛇所需的功能主要包括这几块:移动光标模块打印地图模块和基本规则信息读取最高分文件打印初始蛇模块打印时给予蛇的初始移动方向产生食物模块1)、保证食物在地图内产生2)、保…

用普罗米修斯和格拉法纳乐器来刺豪猪

Adam Bien的Porcupine库使配置用作应用程序隔板的专用执行程序服务变得容易。 我创建了一个扩展,通过MicroProfile Metrics公开了豪猪统计信息。 我们还可以通过Prometheus和Grafana仪表板使仪器可见。 进行此扩展的原因是我们希望对Porcupine线程池的检测进行简单…

三层网络架构

三层网络架构 数据中心网络是连接数据中心大规模服务器进行大型分布式计算的桥梁。 传统数据中心网络普遍采用树型拓扑方案. 典型的拓扑由三层交换机互联构成,分别是接入层交换机、汇聚层交换机和核心层交换机。Cisco称之为:分级的互连网络模…

SDN

直接理解 SDN是在2009年左右出现的一种新型网络结构,它将数据层面与控制层面分离,使用中央控制器完成网络的操作和管理,并通常采用OpenFlow协议作为其核心通信协议,拥有着集中式控制、可编程、部署灵活性和数据层面与控制层面相互…

IP地址分类(A类 B类 C类 D类 E类)

IP地址类型 公有地址 公有地址(Public address)由Inter NIC(Internet Network Information Center因特网信息中心)负责。这些IP地址分配给注册并向Inter NIC提出申请的组织机构。通过它直接访问因特网。 私有地址 私有地址&am…

android 开发 短信,Android开发之短信发送

今天要讲的是使用Android开发发送短信程序。我们先来看下运行效果图(1) 图(2)图(3)图(1):当我们运行项目时,出现在屏幕的效果;图(2):当我们输…