【博弈论】混合策略纳什均衡

上一章中遇到了划线法无法找到均衡的情况,例如盖硬币博弈,盖方盖硬币,猜方猜正反。那是因为考虑的都是纯策略,就是每个策略要么选,要么不选。本章考虑混合策略,就是每个策略都有一个选择的概率。

考虑还是这个盖硬币的博弈,混合策略就是盖方以p的概率盖正,那么就是1-p的概率盖反,猜方同理。p是连续的取值,而如果退化成p只能取1或0,那就退化成原来的纯策略了。

一、寻找纳什均衡

策略B1策略B2
策略A1(2, 3)(5, 2)
策略A2(3, 1)(1, 5)

考虑这样一个博弈,均衡就是,给定A的混合策略(p, 1-p),B的混合策略(q, 1-q),双方都不能改变自己的策略来使自己的收益增加。

换句话说,就是给定p,B的任何混合策略的期望都一样,给定q,A的任何混合策略的期望都一样。

这样计算E(B1(p))=E(B2(p))

               E(A1(q))=E(B2(q))

解出来就可以得到均衡。

3P+(1-p)=2p+5(1-p)

2p+1=-3p+5

5p=4

P=0.8

2q+5(1-q)=3q+(1-q)

-3q+5=2q+1

-5q=-4

Q=0.8

NE就是{(0.8, 0.2), (0.8, 0.2)}

这里有两个问题

1.为什么这两个纯策略期望一样了,所有的混合策略的期望就都一样了?

考虑混合策略的期望,E=q*E(B1(p)) + (1-q)*E(B2(p)),要对于任意的q,E的值都相等,那是不是只要E(B1(p))=E(B2(p))就好了。

2.这样算出来可能有多个均衡吗,为什么

可能有多个均衡,如果E(B1(p))和E(B2(p))两边的p消了,那取任意的p,这个等式都恒成立了,那任意的p就都是均衡。

二、计算混合策略收益

法一、直接计算

策略B1(0.8)策略B2(0.2)
策略A1(0.8)(2, 3)(5, 2)
策略A2(0.2)(3, 1)(1, 5)

还是刚才这个例子,均衡之后,每个格子就有自己相应的概率了,每个格子相应的概率乘上对应的人的收益,最后求和就是均衡下这个人的期望收益。

UA=0.8*0.8*2+0.8*0.2*5+0.2*0.8*3+0.2*0.2*1=2.6

UB=0.8*0.8*3+0.8*0.2*2+0.2*0.8*1+0.2*0.2*5=2.6

法二、巧算

既然均衡了,那么就是意味着,A取均衡这一策略,B取任意策略收益都一样,那么我在算B的收益的时候,我就可以固定A为均衡,B的策略取个简单的例如(1, 0),这样可以减少一半的计算,反之亦然。

那么刚才那个每个格子的概率重新写下(算B)

策略B1(1)策略B2(0)
策略A1(0.8)(2, 3)(5, 2)
策略A2(0.2)(3, 1)(1, 5)

UB=3*0.8+1*0.2=2.6

算A

策略B1(0.8)策略B2(0.2)
策略A1(0)(2, 3)(5, 2)
策略A2(1)(3, 1)(1, 5)

UA=3*0.8+1*1*0.2=2.6

三、计算混合策略反应函数

这里考虑的是二人博弈,且每人只有两个策略,那么函数就是给定A选择他策略1的概率p,B选择他策略1的概率q应该是多少,所以两个人是两个函数,p=f(q), q=f(p)

二人博弈所以可以化成二维的图

两个策略所以期望是1次函数,不消掉概率的情况下只有一个均衡。

那么满足这两个条件,这类博弈的反应函数就都可以表示为分段函数

把两个分段函数画在一张图,刚才的例子

定理:反应函数交点是纳什均衡,这是充要条件。

下面附画图python代码

import matplotlib.pyplot as plt
import numpy as npNEp=0.8
NEq=0.8# 创建一个细分的p和q值数组
p_values = np.linspace(0, 1, 500)
q_values = np.linspace(0, 1, 500)# 初始化Q(p)和p(q)的值
Q_values = np.where(p_values < NEp, 1, np.nan)
Q_values = np.where(p_values > NEp, 0, Q_values)p_q_values = np.where(q_values < NEq, 0, np.nan)
p_q_values = np.where(q_values > NEq, 1, p_q_values)# 绘制Q(p)
plt.plot(p_values, Q_values, label='q=f(p)')# 绘制p(q), 并且交换x和y轴的值
plt.plot(p_q_values, q_values, label='p=f(q)')# 设置图例
plt.legend()# 设置x和y轴的标签
plt.xlabel('p')
plt.ylabel('q')# 设置标题
plt.title('Reaction Function')# 显示网格
plt.grid(True)# 显示图形
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/135039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP头部信息解释分析(详细整理)(转载)

这篇文章为大家介绍了HTTP头部信息&#xff0c;中英文对比分析&#xff0c;还是比较全面的&#xff0c;若大家在使用过程中遇到不了解的&#xff0c;可以适当参考下 HTTP 头部解释 1. Accept&#xff1a; 告诉WEB服务器自己接受什么介质类型&#xff0c;/ 表示任何类型&#…

xilinx fpga ddr mig axi

硬件 参考&#xff1a; https://zhuanlan.zhihu.com/p/97491454 https://blog.csdn.net/qq_22222449/article/details/106492469 https://zhuanlan.zhihu.com/p/26327347 https://zhuanlan.zhihu.com/p/582524766 包括野火、正点原子的资料 一片内存是 1Gbit 128MByte 16bit …

Chrome 插件开发 V3版本 跨域处理

插件构成 chrome 插件通常由以下几部分组成&#xff1a; manifest.json&#xff1a;相当于插件的 meta 信息&#xff0c;包含插件的名称、版本号、图标、脚本文件名称等&#xff0c;这个文件是每个插件都必须提供的&#xff0c;其他几部分都是可选的。 background script&…

探索经典算法:贪心、分治、动态规划等

1.贪心算法 贪心算法是一种常见的算法范式&#xff0c;通常在解决最优化问题中使用。 贪心算法是一种在每一步选择中都采取当前状态下最优决策的算法范式。其核心思想是选择每一步的最佳解决方案&#xff0c;以期望达到最终的全局最优解。这种算法特点在于只考虑局部最优解&am…

Linux Vim批量注释和自定义注释

使用 Vim 编辑 Shell 脚本&#xff0c;在进行调试时&#xff0c;需要进行多行的注释&#xff0c;每次都要先切换到输入模式&#xff0c;在行首输入注释符"#"再退回命令模式&#xff0c;非常麻烦。连续行的注释其实可以用替换命令来完成。 换句话说&#xff0c;在指定…

0.专栏概述与几句闲话

引 还记得今年大年初一开始写《数据结构和算法》专栏的时候定了个小目标&#xff1a; 不知不觉间已经过去了十个月&#xff0c;我的第一个专栏也算是圆满收官了 。 这次PO一张成都熊猫基地的团子们&#xff0c;开启设计模式这个专栏吧。 目录与概述 犹记得一位身在广州的老…

相机传感器

相机的传感器大小通常用英寸&#xff08;1英寸2.54厘米&#xff09;来表示。例如&#xff1a;全画幅相机的传感器大小为&#xff1a;36mm*24mm&#xff0c;称为 35mm全画幅。 几分之一英寸 所谓的 1/2.7&#xff0c;1/2.5等等&#xff0c;里面的分子1是一个标准&#xff0c;分…

java动态代理技术

为什么需要动态代理技术 如果对象身上干的事太多可以通过代理技术转移部分功能对象有什么办法需要被代理&#xff0c;代理就必须要有一定的方法 怎么实现动态代理 创建对象 public class 对象名 implement 接口{private String name;public 对象名(String name){this.name na…

c语言使用fdk_aac库对aac音频解码为pcm

//示例为adts的aac流数据&#xff08;adts数据可以每一包都可以独立解析不需要拼凑&#xff09; //解码数据的采样率同解码前的采样率&#xff0c;如果不满足需求&#xff0c;需要对数据进行重采样 #include <aacdecoder_lib.h>int m_fd -1; int m_fd2 -1;void aac2pc…

PySpark 优雅的解决依赖包管理

背景 平台所有的Spark任务都是采用Spark on yarn cluster的模式进行任务提交的&#xff0c;driver和executor随机分配在集群的各个节点&#xff0c;pySpark 由于python语言的性质&#xff0c;所以pySpark项目的依赖注定不能像java/scala项目那样把依赖打进jar包中轻松解决问题…

laravel自定义日志保存文件加上日期

在config/logging.php文件中&#xff0c;找到channels数组&#xff0c;添加以下内容&#xff1a; payment > [driver > single,path > storage_path(logs/payment/.date(Y-m-d)..log),level > debug, ],在执行代码的方法里&#xff0c;加上以下代码&#xff1a; …

LeetCode刷题--思路总结记录

23-11-08每日一题&#xff1a;2609.最长平衡子字符串 链接&#xff1a;2609.最长平衡子字符串 总体思路&#xff1a; 平衡字符串要求“字符串前半段的0和后半段的1个数相同” > 分别记录0和1的计数结果&#xff0c;并最终取二者的最小值2字符串必须0开头&#xff0c;1结束 …

uniapp 请求接口的方式

在UniApp中&#xff0c;我们可以使用多种方式来发送请求接口。以下是几种常用的方式&#xff1a; 1、使用unmireuest方法:uni.reuest是uniApp提供的原生AP&#xff0c;可以发送HTTP请&#xff0c;我们可以通过传递一个图对象来设置请求的参数&#xff0c;RL、请求方法GET/POST…

刷题笔记day15-二叉树2

层序遍历 /*** Definition for a binary tree node.* type TreeNode struct {* Val int* Left *TreeNode* Right *TreeNode* }*/import ("container/list" )func levelOrder(root *TreeNode) [][]int {// 思路1&#xff1a;此处肯定要使用队列result : …

机器视觉在虚拟现实与增强现实中的作用

机器视觉在虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;中发挥着至关重要的作用。这些技术的核心是计算机视觉领域&#xff0c;重点是让计算机具有“看到”和理解周围世界的能力。 在虚拟现实中&#xff0c;计算机视觉用于创建和处理用户所见的虚…

Linux实现简易shell

文章目录 &#x1f984;0. shell&#x1f42e;1. 交互及获取命令行&#x1f437;2. 解析命令行&#x1f42f;3. 执行命令行&#x1f405;3.1 普通命令&#x1f405;3.2 内建命令 &#x1f981;4. 主函数逻辑及演示 本章代码gitee仓库&#xff1a;简易shell &#x1f984;0. she…

axios的介绍及配置多个服务器url

文章目录 1、常用的默认配置的是&#xff1a;baseURL、method、timeout2、axios配置多个服务器url3、配置api文件4、文件中使用 1、常用的默认配置的是&#xff1a;baseURL、method、timeout ① baseURL&#xff1a;设置url的基本结构&#xff08;请求根地址&#xff09;&…

解决vuex刷新数据丢失

Vuex 是一个 Vue.js 的状态管理库&#xff0c;它使得你可以在 Vue 组件之间共享状态。当你在 Vuex 中更新状态时&#xff0c;如果你遇到数据丢失或数据不一致的问题&#xff0c;可能需要进行深度复制或者使用其他方式来确保数据的完整性。 假设你有一个 Vuex 存储&#xff0c;…

昇腾CANN 7.0 黑科技:DVPP硬件加速训练数据预处理,友好解决Host CPU预处理瓶颈

在NPU/GPU上进行模型训练计算&#xff0c;为了充分使用计算资源&#xff0c;一般采用批量数据处理方式&#xff0c;因此一般情况下为提升整体吞吐率&#xff0c;batch值会设置的比较大&#xff0c;常见的batch数为256/512&#xff0c;这样一来&#xff0c;对数据预处理处理速度…

Harbor私有仓库

Harbor私有仓库 文章目录 Harbor私有仓库Harbor简介&#xff1a;Harbor 提供了以下主要功能和特性&#xff1a;优缺点&#xff1a;环境说明&#xff1a;部署harbor1.永久关闭防火墙和seliux&#xff0c;配置阿里云源&#xff0c;添加映射关系2.安装docker&#xff0c;开启docke…