张维迎《博弈与社会》纳什均衡与囚徒困境博弈(3)理性共识的问题

理性人不选择坏战略

上一节,我们借助囚徒困境博弈阐述了什么是占优均衡。在囚徒困境中,无论别人采取什么行动,每一个参与人都有一个特定的最优选择(占优战略)。也就是说,一个理性的参与人在做决策时,并不需要假定对方也是理性的。对于这样的博弈,我们很容易预测它的结果。但是有些博弈可能是一方有占优战略,另一方没有占优战略,即什么是自己的最优行动依赖于他预测对方会选择什么行动,对方的选择不同,自己的最优行动就不同。此时博弈结果又会怎样呢?下面我们就用“智猪博弈”(boxed pigs game)来分析这个问题。

设想猪圈里有两头猪,一头大猪和一头小猪。在猪圈的一头装有一个按钮,另一头装有食槽。在这头按一下按钮,那头的食槽会有8单位的食物出现。但不管是大猪还是小猪,按动按钮都需要花2个单位食物的成本。如果两头猪一起按,各付2单位食物成本,然后大猪吃到6份食物,小猪可以吃到2份食物,扣除成本后,双方的净收益分别为4和0。如果大猪按、小猪不按,则小猪不付出任何代价就可以吃到3份,大猪按完之后跑回来可以吃到5份,扣除其按按钮的2个单位的成本,大猪的净收益也是3。反过来,如果大猪不按、小猪按的话,大猪可以不付出任何代价就可以吃到7份,小猪则只可以吃到1份,扣除其2单位的成本,则小猪的净收益为-1。如果两头猪都不按,则不付出成本,但也不会有食物吃,净收益都为0。如下图所示。

现在的问题是,谁来按这个按钮?

先考虑大猪的情况:如果小猪按的话,大猪的最优选择是“等待”(7>4);但如果小猪等待的话,大猪的最优选择是“按”(3>0)。这就和前面所讲的囚徒困境博弈不一样了。在囚徒困境博弈中,每一个参与人都有一个占优战略——不论对方是否坦白,你最好是坦白。但在智猪博弈中,大猪没有占优战略,大猪的最优选择依赖于小猪的选择。所以大猪在做出选择前必须猜测小猪的选择。

那么,小猪会如何选择呢?对于小猪来说,如果大猪按,自己的最优选择是“不按”(3>0);如果大猪不按,自己的最优选择仍然“不按”(0>-1)。这表明小猪选择“不按”是一个占优战略。

那大猪应该怎么办呢?我们前边假定的每一个博弈参与人(大猪或小猪)都是理性的,但并没有假定一方知道另一方也是理性的。显然,小猪在做决策时并不需要假定大猪是理性的,因为无论大猪是否理性,小猪的最优决策都是不按;但大猪的情况不同,即使小猪是理性的,如果大猪不知道小猪是否理性,大猪就没有办法做出选择。

为了预测这个博弈的结果,我们必须对大猪的理性程度做出进一步的假设。假定大猪不仅自己是理性的,也知道小猪是理性的。作为理性的参与人,小猪不会按。由于大猪知道小猪是理性的,就会知道小猪不会按,因此,大猪的最优选择只能是按。博弈的结局就是:大猪按,小猪不按,各得3单位的净报酬。

从这个例子里面,我们可以进一步提出一个概念——劣战略(dominated strategy)。所谓劣战略是指不论对手选择什么,自己都不会选择的战略。在智猪博弈中,对于参与人小猪来说,“按”就是它的一个劣战略。因为,无论大猪按还是不按,对于小猪,按都不是它的最好选择。因此,如果大猪知道小猪是理性的,就可以把“按”这一战略从小猪的战略集合中去掉。大猪现在面对的博弈如下图所示:

这时,对于大猪来说,“不按”也变成劣战略了,他也不会使用这一战略。因此,我们可以把这一劣战略再从大猪的战略集合中去掉,得到下图所示的结果:

这样一来,我们得到了唯一的最优战略组合是:大猪按,小猪不按。这就是大小猪博弈的战略均衡。寻找这个博弈的均衡的进程,是相继剔除劣战略的过程。所以,这个均衡被称为“重复剔除占优战略均衡”(iterated dominance equilibrium)

批注:和“纳什均衡”的区别在哪里呀?

智猪博弈的均衡解在现实中有许多应用。比如说,股份公司中,股东承担着监督经理的职能,但股东中有大股东和小股东之分,他们从监督中得到的收益并不一样。监督经理需要搜集信息,花费时间。在监督成本相同的情况下,大股东从监督中得到的好处显然多于小股东。这里,大股东类似“大猪”,小股东类似“小猪”。均衡结果是,大股东担当起搜集信息、监督经理的责任,小股东则搭大股东的便车。股票市场上炒股票也是如此。股市上有庄家和散户。庄家类似“大猪”,散户类似“小猪”。这时候,“跟庄”是散户的最优选择,而庄家则必须自己搜集信息,进行分析。

市场中大企业与小企业之间的关系也存在类似的问题。进行研究开发,为新产品做广告,对大企业来说是值得的,对小企业来说则可能得不偿失。所以,大企业往往负责创新,而小企业把精力花在模仿上。

国际范围的反恐怖主义的活动也类似一个智猪博弈。在全球化时代,恐怖主义已成为一种国际现象,伤害所有的国家。但反恐的成本是很高的,小国尽管也不喜欢恐怖分子,但他们也没有积极性反恐。所以,国际反恐中,一定是大国承担更大的责任(人力、物力),小国搭便车。即大国扮演大猪的角色,小国扮演小猪的角色。随着中国的崛起,国际社会要求中国承担更大的责任,也是这个道理。国际反恐可以理解为国际范围的公共产品。前面讲公共产品的生产是一个囚徒困境博弈,事实上有些公共产品的生产类似智猪博弈,因为受益者是不对称的,有人受益大,有人受益小。在这种情况下,受益大的人可能有积极性私人生产公共产品,如过去农村一些大户人家就负责本村道路的维修。这也就是说,并不是所有的公共产品都需要政府提供。

社会改革中也有类似的情况。同样的改革给一部分人带来的好处可能比另一部分大得多。这时候,前一部分人比后一部分人更有积极性改革,改革往往就是由这些“大猪”推动的。如改革能创造出更多的“大猪”来,改革的速度就会加快。

理性作为共同知识

分析智猪博弈是一个重复剔除劣战略的过程。具体来说,首先在整个博弈当中,找出某一个参与人的劣战略,把它剔除掉;然后再在剩下的博弈中再找出劣战略并将其剔除;不断进行下去,如果剔除到最后只留下一个战略组合,那么这个战略组合就是我们说的重复剔除占优均衡。这种情况下,我们说这个博弈是重复剔除占优可解博弈

我们已经看到,预测这样的博弈中每个人会选择什么,我们需要对参与人的理性程度做出更高的要求,仅仅假定每个参与人都是理性的并不能告诉我们均衡结果是怎样的。比如,在智猪博弈中,除了假定大猪和小猪都是理性的外,我们至少还得假定大猪知道小猪是理性的。小猪是理性的,意味着小猪不会选择按。但如果大猪不知道小猪是理性的,大猪仍然不知道如何选择。

但这个博弈对理性程度的要求仍然是很低的,我们甚至不需要假定小猪知道大猪是理性的,因为不论大猪是否理性,小猪都知道自己的最优选择是不按。在许多博弈中,即使假定每个参与人知道其他参与人是理性的,仍然不能告诉我们参与人会如何选择。

为此,我们需要引入理性共识(common knowledge of rationality)的概念,并定义零阶(zero-order)、一阶(first-order)、二阶(second-order),直至无限阶次的理性共识。零阶理性共识:每个人都是理性的,但不知道其他人是否理性;一阶理性共识:除了要求每个人都是理性的,还要求每个人都知道其他人是理性的;二阶理性共识则需要在满足一阶的基础上更进一步:首先每个人是理性的,同时每个人知道其他人是理性的,并且每个人知道其他人知道自己是理性的;依次类推,N阶理性共识,直至无穷阶次的理性共识。

一般讲的理性共识是无穷阶次的理性共识。打个比方,类似一个人前后各有一面镜子,镜子里有无穷个映像。这是博弈论中的一个基本假设,但现实很少达到,这是博弈分析的结果与现实有偏离的一个重要原因。生活中之所以有计谋,就是由于参与人不满足理性共识的要求,否则,博弈的结果是任何人都可以预测的,任何计谋都不可能得逞。比方说,乙很聪明,甲也知道乙很聪明,但是乙不知道甲知道乙很聪明,这种情况下,乙出个计谋骗甲,甲“将计就计”,最后获胜的反倒是甲。如果乙知道甲知道乙很聪明,乙就知道任何计谋都会被甲识破,乙就不可能有机会被“将计就计”。田忌赛马的故事中,齐王的上中下三匹马均好过田忌的上中下三匹马,但田忌用下马对齐王的上马,上马对齐王的中马,中马对齐王的下马,结果田忌以2∶1获胜。容易看出,田忌之所以能获胜,就是因为齐王不知道田忌聪明,或者说齐王太傻。如果齐王足够聪明的话,只要要求田忌先出马(齐王应该有这个权力),齐王一定可以3∶0获胜。

尽管很少有人能达到无穷阶理性共识,但像齐王这么“傻”的人也不多。为了说明理性共识在重复剔除中的重要性,考虑如下所示的博弈。在该博弈中,每个参与人都有四个选择,仍假定理性是共同知识。

首先看R的选择:如果C选择C1, R应该选择R1;如果C选C2,则R应该选择R2;类似地,C3、C4对应的最优反应分别是R3、R4。显然,R的任何一种选择都是理性的,具体依赖于他如何判断C的选择。

再来看C的选择:如果R选择R1, C会选择C3;如果R选择R2, C会选择C2。R3、R4对应的最优反应分别是C2、C1。

在这个博弈里,无论R选择什么,C都不会选择C4,即C4是C的劣战略。如果R知道C是理性的,R就不再会选择R4,因为R选择R4的唯一理由是C会选择C4,现在R知道理性的C不会选择C4,故也不会选择R4。

进一步,我们知道,C选择C1的唯一理由是R选择R4。如果现在C知道R不会选择R4, C就不会选择C1。所以可以进一步剔除C1。同样的道理,接下来,R会剔除R1。同理可以再依次剔除C3和R3。最后只剩下(C2, R2),双方的收益均为1,这就是前述讲到的重复剔除占优均衡。可以看到,重复剔除占优均衡的求解是根据理性共识一步一步地剔除劣战略,最后得到唯一的均衡结果。一般来说,博弈中参与人的选择越多,对理性共识的要求就越高。

实际上,求解这个均衡要求五阶理性共识:

零阶理性共识:C是理性的,这意味着他不会选择C4;

一阶理性共识:R知道C是理性的,这意味着他知道C不会选C4,故自己也不会选择R4;

二阶理性共识:C知道R知道C是理性的,这意味着C知道R将不会选R4,故自己不应该选择C1;

三阶理性共识:R知道C知道R知道C是理性的,这意味着R知道C不会选C1了,故自己不应该选择R1;

四阶理性共识:C知道R知道C知道R知道C是理性的,这意味着C现在知道R不会选R1了,故自己不应该选C3;

五阶理性共识:R知道C知道R知道C知道R知道C是理性的,这意味着R知道C不会选C3了,故自己不应该选R3。

经过上述推理,最后的结果将是R选择R2, C选择C2。

这样的一个推理过程可能让读者已经都晕倒了。这说明理性共识对于求解和预测一个博弈要求非常高,现实中参加博弈的参与人很难达到这一要求。这也是我们前面提到的很多时候博弈论的理论预测结果和现实中实际结果会有差异的一个主要原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云轻量应用Ubuntu服务器如何一键部署幻兽帕鲁Palworld私服?

幻兽帕鲁/Palworld是一款2024年Pocketpair开发的开放世界生存制作游戏,在帕鲁的世界,玩家可以选择与神奇的生物“帕鲁”一同享受悠闲的生活,也可以投身于与偷猎者进行生死搏斗的冒险。而帕鲁可以进行战斗、繁殖、协助玩家做农活,也…

SAC(Soft Actor-Critic)理论与代码解释

标题 理论序言基础Q值与V值算法区别 SAC概念Q函数与V函数最大化熵强化学习(Maximum Entropy Reinforcement Learning, MERL)算法流程1个actor,4个Q Critic1个actor,2个V Critic,2个Q Critic 代码详解Actor网络理论中的…

Opencv——霍夫变换

霍夫直线变换 霍夫直线变换(Hough Line Transform)用来做直线检测 为了加升大家对霍夫直线的理解,我在左图左上角大了一个点,然后在右图中绘制出来经过这点可能的所有直线 绘制经过某点的所有直线的示例代码如下,这个代码可以直接拷贝运行 import cv2 as cv import matplot…

基于JavaWeb开发的服装网上商城系统【附源码】

基于JavaWeb开发的服装网上商城系统【附源码】 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种定制系统 &#…

如何优化博客的内容和用户体验

在当今数字时代,博客成为了分享知识、展示个人专业能力和吸引读者的重要工具。然而,随着越来越多的博客涌现,如何优化博客的内容和用户体验成为了一个关键的问题。本文将为你提供一些有效的技巧,帮助你优化博客的内容和提升用户体…

Phoncent博客,探索Rie Kudan的GPT创作之举

近日,大家都在谈论日本作家Rie Kudan,她凭借其小说《东京共鸣塔》("Tokyo-to Dojo-to")荣获了日本极具声望的芥川奖。这本小说引起了广泛的讨论和思考,因为令人惊讶的是,Kudan在其中直接引用了人…

报告发布 | 聚铭网络参编的《数据安全风险评估实务:问题剖析与解决思路》正式发布

近日,由中国信通院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会承办的“数据资产管理大会数据安全论坛”在北京成功召开。会上正式发布了《数据安全风险评估实务:问题剖析与解决思路》报告(以下简称“报…

事务、MVCC、锁

目录 事务MVCC锁 事务 四大特性:ACID 脏读:事务A读取到未提交事务B修改的数据 不可重复读:事务A修改了未提交事务B读取的数据 幻读:事务A增删了未提交事务B读取的数据 不可重复读与幻读都是读取的结果不同,前者侧重于…

什么是零知识证明?

Web3 的核心原则之一——透明度,也可能是其最大的缺点之一。没有人希望他们的所有在线活动(从金融交易到个人身份数据)都可供任何人公开查看。为了使区块链能够扩展并变得更容易访问,隐私必须成为首要任务。 零知识证明能够改变我…

一些著名的软件都用什么语言编写?

1、操作系统 Microsoft Windows :汇编 -> C -> C 备注:曾经在智能手机的操作系统(Windows Mobile)考虑掺点C#写的程序,比如软键盘,结果因为写出来的程序太慢,实在无法和别的模块合并&…

2001-2022年全国30省就业人数数据

2001-2022年全国30省就业人数数据 1、时间:2001-2022年 2、来源:各省年鉴、人口和就业年鉴、wind 3、指标:省份、年份、就业人数 4、范围:30个省市 5、缺失情况:无缺失 6、指标解释: 就业人口是指一…

[嵌入式软件][入门篇][仿真平台] STM32CubeMX的搭建

文章目录 一、简介二、STM32CubeMX的使用(1) 新建文件,芯片选型(2) sys设置和RCC设置(3) 配置时钟(4) 生成代码 三、仿真平台的使用 一、简介 STM32CubeMX是一种图形工具,通过分步过程可以非常轻松地配置STM32微控制器和微处理器,生成相应的初…

保护医疗数据不受威胁:MPLS专线在医疗网络安全中的角色

随着数字技术的快速发展,医疗行业正在经历一场革命。从电子健康记录到远程医疗服务,数字化不仅提高了效率,也带来了前所未有的挑战--尤其是关于数据安全和隐私保护的挑战。在这样的背景下,如何确保敏感的医疗数据安全传输&#xf…

第一口就喝到了珠珠

x*ay*bc;假设b杯比a杯大,那么就是往b中可以加入a杯,然后倒出b杯,就是求x和y的最大公因数,用cn1*k*xn2*k*ygcd(a,b)*(n1*xn2*y);而且c要小于a或者b的最大值. int gcd(int a, int b) {while (b) {int t b;b a % b;a t;}return s…

腾讯云Linux(OpenCloudOS)安装tomcat9(9.0.85)

腾讯云Linux(OpenCloudOS)安装tomcat9 下载并上传 tomcat官网 https://tomcat.apache.org/download-90.cgi 下载完成后上传至自己想要放置的目录下 解压文件 输入tar -xzvf apache-tomcat-9.0.85.tar.gz解压文件,建议将解压后的文件重新命名为tomcat,方便后期进…

大模型学习与实践笔记(十四)

使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能 步骤1:下载internLM2-Chat-7B 模型,并进行挂载 以下命令将internlm2-7b模型挂载到当前目录下: ln -s /share/model_repos/internlm2-7b/ ./ 步骤2&…

音频分离软件有哪些?这些软件轻松分离

音频分离软件有哪些?随着音频处理需求的日益增长,音频分离软件成为了许多人的必备工具。为了满足这些需求,市面上涌现出了许多优秀的音频分离软件。本文将为您介绍5款知名的音频分离软件,让您轻松实现音频处理。 1.口袋视频转换器…

Linux ---- Shell编程之正则表达式

一、正则表达式 ​ 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用…

Boost.Test-如何将测试套件(源码文件)组织成工程、并执行测试

Boost.Test资源及示例的续篇 1.测试套件TestSuite的源码文件组织如下图 2.CMakeLists.txt需要自己编写,本例内容如下 cmake_minimum_required(VERSION 3.5.0 FATAL_ERROR) project(mytestmodule) enable_testing()# indicates the location of the boost instal…

OAK深度相机主机时钟同步提升10倍!

编辑:OAK中国 首发:oakchina.cn 喜欢的话,请多多👍⭐️✍ 内容可能会不定期更新,官网内容都是最新的,请查看首发地址链接。 ▌前言 Hello,大家好,这里是OAK中国,我是Ash…