这三个博弈论新趋势,正深刻影响深度强化学习

来源 | AI科技评论

作者 | Jesus Rodriguez

编译 | 亚尔曼•佩皮

校对 | 丛末 & Camel

博弈论在现代人工智能(AI)解决方案中正扮演着至关重要的角色,深度强化学习(DRL)正是积极拥抱博弈论的头等公民。

从单智能体程序到复杂的多智能体深度强化学习环境,博弈论原理贯穿了 AI 程序的整个生命周期。而反过来,DRL 的快速演化也重新激发了人们对博弈论研究的关注。

目前,大多数 DRL 模型事实上还停留在传统的博弈论层面,例如纳什均衡或零和游戏等。但随着DRL的发展,传统博弈论方法已经逐渐呈现出不足之处,而同时则有一些新的博弈论方法被纳入到人工智能的程序当中。

因此,对于我们来说,若想进一步优化深度强化学习的模型,考虑融入新的博弈论方法,是值得考量的一个方向。

以下三个,正是在深刻影响 DRL 的「新」博弈论方法,或许用到你的模型中会大大改观模型的性能。

一、平均场博弈(Mean Field Games)

在博弈论家族中,平均场博弈(MFG)还是一个相对较新的领域。

平均场博弈论诞生于 2006 年,这一理论是由两个团队独立提出的,一个是蒙特利尔的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一个是巴黎的 Jean-Michel Lasry和菲尔兹奖获得者 Pierre-Louis Lions。

从概念上讲,平均场博弈论是一套方法和技术的组合,它被用来研究由「理性博弈方」组成的大群体下的差异化博弈。这些智能体不仅对自身所处的状态(如财富、资金)有偏好,还关注其他智能体在整个样本分布中所处的位置。平均场博弈理论正是针对这些系统对广义纳什均衡进行了研究。

平均场博弈的经典案例是,如何训练鱼群朝相同方向游,或者以协作方式游。

这个现象很难用理论解释,但它的本质事实上是,鱼会根据最靠近的鱼群的行为做出反映。再具体点儿,每条鱼并不在乎其他单个鱼的行为,而是关注附近作为一个整体、统一移动的鱼群做出的行为。

如果我们用数学方程表述这个原理,一方面可以用 Hamilton-Jacobi-Bellman 方程来描述鱼对周边鱼群的反应,另一方面则可以用 Fokker-Planck-Kolmogoroy 方程来表示决定整个鱼群行动的所有鱼的行为集合。

平均场博弈理论就是这两个等式的组合。

从深度强化学习的角度来说,在研究大范围环境中 大量智能体的表现方面,平均场博弈论扮演着重要的角色。

实验和理论已经证实,在“接近无限多智能体、并假设采用不精确的概率模型进行操作”的环境中,已有的 DRL的方法并不具备现实可用性。

而 MFG 却是模拟这类 DRL 环境的一个有意思的方法,非常值得尝试。

一家叫做Prowler 的创业公司最近就在针对平均场博弈论(MFG)在大型多智能体(DRL)环境中的表现开展研究工作。

二、随机博弈(Stochastic games)

随机博弈可追溯到 20 世纪 50 年代,它由诺贝尔经济学奖获得者 Lloyd Shapley 提出。

理论上随机博弈的规则是,让有限多个博弈者在有限个状态空间中进行博弈,每个博弈者在每个状态空间都从有限个行为中选出一个行为,这些行为的组合结果会决定博弈者所获得的奖励,并得出下一个状态空间的概率分布。

随机博弈的经典案例是哲学家的晚餐问题:n+1 位哲学家(n 大于等于 1)围坐在一个圆桌周围,圆桌中间放了一碗米饭。每两位邻座的哲学家之间会放一支筷子以供这两位取用。因为桌子是圆形的,筷子的数量与哲学家的数量一样多。为了从碗中取到东西吃,哲学家需要同时从两边各取一支筷子组成一双,因此,在一位哲学家吃东西时,他的两位邻座就无法同时进食。哲学家的生活简单到只需要吃和思考,而为了存活下来,哲学家需要不断地思考和吃东西。这场博弈的任务就是设计出一个可以让所有的哲学家都活下来的制度。

DRL 已经开始应用随机博弈理论解决多玩家游戏问题。在许多多玩家游戏中,AI 智能体战队需要评估如何通过与其他智能体协作和竞争以最大化正向结果。

这一问题一般被称作探索-利用困境。在 DRL 智能体中构建随机博弈动态机制,可以有效地平衡 DRL 智能体在探索能力和利用能力方面的发展。DeepMind 在训练 AI 掌握 Quake III 游戏的工作中,就融合了一些随机博弈论中的概念。

三、进化博弈(Evolutionary Games)

进化博弈理论(EGT)是从达尔文进化论中得到的启发。

EGT 的起源可以追溯到 1973 年,当时 John Maynard Smith 和 George R.Price两人采用「策略」分析将演化竞争形式化,并建立数学标准,从而来预测不同竞争策略所产生的结果。

从概念上来说,EGT 是博弈论在进化场景中的应用。在这种博弈中,一群智能体通过重复选择的进化过程,与多样化的策略进行持续交互,从而创建出一个稳定的解决方案。

它背后的思路是,许多行为都涉及到群体中多个智能体间的交互,而其中某一个智能体是否获得成功,取决于它采取的策略与其他智能体的策略如何交互。

经典博弈论将关注点放在静态策略上,即参与者采取的策略不会随着时间改变,而进化博弈与经典博弈论不同,它关注策略如何随着时间演化,以及哪个动态策略是进化进程中最成功的那一个。

EGT 的经典案例是鹰鸽博弈(Howk Dove Game),它模拟了鹰与鸽之间对可共享资源的竞争。博弈中的每个竞争者都遵循以下两种策略之中的一种:

  • 鹰:本能的强势,充满侵略性,除非身负重伤,否则绝不退却。

  • 鸽:面对强势进攻会立即逃跑。

如果假设:

1)两个同样强势进攻的鹰进行搏斗,两者之间必然会发生冲突,且两者都很有可能受伤;

2)冲突的代价是每人都受到一定程度的损伤,用常量 C 表示这个损失;

3)如果鹰与鸽相遇,鸽会立刻逃跑,而鹰则会占有资源;

4)两只鸽相遇,则他们将公平地分享资源。鹰鸽博弈的对应收益可以用以下矩阵总结:

EGT 看上去似乎是特地为 DRL 环境而设计的。

在多智能体的 DRL 环境中,智能体在彼此交互的过程中会周期性地调整自己的策略。而 EGT 正是一种可以高效模拟这些交互的方法。最近,OpenAI 就展示了经过这种动态训练的智能体在玩捉迷藏游戏时的表现(https://openai.com/blog/emergent-tool-use/)。

via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1

以上文章观点仅代表文章作者,仅供参考,以抛砖引玉!

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Beam概念学习系列之Pipeline 数据处理流水线

不多说,直接上干货! Pipeline 数据处理流水线 Pipeline将Source PCollection ParDo、Sink组织在一起形成了一个完整的数据处理的过程。 Beam概念学习系列之PCollection数据集 Beam概念学习系列之PTransform数据处理转载于:https://www.cnblogs.com/zlslc…

美国再出半导体新法案!1800亿谋求芯片制造振兴

文章来源:EE Times、James E.Risch芯东西(ID:aichip001)编 | 董温淑芯东西7月1日消息,上周,多位美国两党议员共同提出《2020美国晶圆代工法案(AFA,The American Foundries Act Of 20…

stackexchange.mysql_.net core使用redis基于StackExchange.Redis

.net core使用redis基于StackExchange.Redis教程,具体如下一.添加引用包StackExchange.RedisMicrosoft.Extensions.Configuration二.修改配置文件 appsettings.json{"RedisConfig": {"Redis_Default": {"Connection": "127.0.0.…

Apache网站服务

Apache 下载地址: http://mirror.bit.edu.cn/apache/httpd/相关软件下载地址:http://mirror.bjtu.edu.cn/apache/apr/apr          http://mirror.bjtu.edu.cn/apache/apr/apr-utilApache 简介: 进程技术,高资源消耗&…

微积分的发展史

来源:数学中国早期萌芽时期:1、 古西方萌芽时期:公元前七世纪,泰勒斯对图形的面积、体积与的长度的研究就含有早期微积分的思想,尽管不是很明显。公元前三世纪,伟大的全能科学家阿基米德利用穷竭法推算出了…

c# mysql代码中写事务_代码中添加事务控制 VS(数据库存储过程+事务) 保证数据的完整性与一致性...

[c#]代码库代码中使用事务前提:务必保证一个功能(或用例)在同一个打开的数据连接上,放到同一个事务里面操作。首先是在D层添加一个类为了保存当前操作的这一个连接放到一个事务中执行,并事务执行打开同一个连接、事务完成关闭同一个连接的一个…

AI的“色差”与“纠偏”

来源:脑极体在美国学术界声援BLM(Black Lives Matter)之后,事情的走向有点难以预料。学术界的反种族歧视反省似乎没有了下文,但是如火如荼的BLM运动早已蔓延开来,这次将矛头指向了AI界。事情的起因是杜克大…

英伟达奔驰共同发布自动驾驶系统,还自带停车功能

大数据文摘出品来源:VB编译:白浩然最近,英伟达(Nvidia)宣布为了和奔驰(Mercedes-Benz)汽车紧密合作,计划从2024年开始推出一款车载计算系统和AI基础设施,该技术于去年1月…

【hihocoder 1312】搜索三·启发式搜索(启发式搜索写法)

【题目链接】:http://hihocoder.com/problemset/problem/1312?sid1092363 【题意】 【题解】 定义一个A*函数 f stepval 这里的val是当前这个状态;每个点到目标状态的点的曼哈顿距离的绝对值; (这个值肯定比真正需要花费的路程短) step就为当前状态花费的步数; 把普通…

Gartner发布2020年数据与分析领域的十大技术趋势

来源:Gartner公司近日,Gartner发布了数据与分析领域的十大技术趋势,为数据和分析领导者的新冠疫情(COVID-19)响应和恢复工作提供指导,并为疫情后的重启做好准备。数据和分析领导者如果希望在疫情后能持续创…

java 中文域名转码_转换java方法

java date String 类型相互转换这种转换要用到java.text.SimpleDateFormat类字符串转换成日期类型:方法1:也是最简单的方法 Date datenew Date("2008-04-14");方法2:SimpleDateFormat sdfnew SimpleDateFormat("yyyy-M...文章…

【42.59%】【codeforces 602A】Two Bases

time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard output After seeing the “ALL YOUR BASE ARE BELONG TO US” meme for the first time, numbers X and Y realised that they have different bases, which complic…

java2019 数据结构算法面试题_2019年JVM最新面试题,必须收藏它

1、JVN内存结构方法区和对是所有线程共享的内存区域;而java栈、本地方法栈和程序员计数器是运行是线程私有的内存区域。Java堆(Heap),是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一…

前沿科技 | 中科院科学家研究揭示灵活行动选择的神经机制

来源:中国科学院6月24日,中国科学院科学家团队——脑科学与智能技术卓越创新中心(神经科学研究所)、上海脑科学与类脑研究中心、神经科学国家重点实验室姚海珊研究组在eLife上在线发表了题为《次级运动皮层在灵活视觉分类行为中参…

中科院调查组成立!杨辉发表声明,并对举报信作出详细回应

左:加州大学圣地亚哥分校教授付向东。右:中科院神经所青年 PI 杨辉。图片来源:UCSD/一席演讲来源 BioArtReports 中科院神经所 等整理 科研圈7 月 2 日,网络消息称加州大学圣地亚哥分校细胞和分子医学系教授付向东发布实名举报信&…

java lookandfeel nimbus_动态改变LookAndFeel

LookAndFeel可以改变图形界面的风格,比如说可以将Java的默认界面改变成仿Windows,UNIX等其它风格的界面,主要有以下几种界面风格:metal(默认):"javax.swing.plaf.metal.MetalLookAndFeel"windows:"com.sun.java.sw…

盘点华为系工控企业——中国A股上市公司最多的创业体系

来源:OFweek工控别看今日华为风光无限,美国举国打压下更显华为雄厚实力;但早在2000年左右,全球IT产业泡沫破灭,作为通信设备商,华为也受累进入寒冬,任正非为了鼓励团队士气,写出了著…

Java多线程编程递增_java多线程编程之简介

编写正确的程序很难,编写正确的多线程程序更难。如果对多线程理解的不够深入,编写出来的程序往往跟自己的预期不一样,甚至不知道问题出现在哪里。因此,如果想成为一个好的程序员,掌握多线程是必修的一门功课。多线程带…

JavaScript中的内置对象-8--4.date对象中-获取,设置日期时间的方法; 获取,设置年月日时分秒及星期的方法;...

学习目标 1.掌握创建日期对象的方法 2.掌握date对象中获取日期时间的方法 3.掌握date对象中设置日期时间的方法 如何创建一个日期对象 语法:new Date(); 功能:创建一个日期时间对象 返回值:比传参的情况下,返回当前的日期时间对象…

秦川团队《科学》刊发研究:新冠感染恒河猴康复后不会再感染

来源:澎湃新闻新冠病毒(SARS-CoV-2)肺炎疫情全球大流行的背景下,恢复期患者是否有再次感染的风险目前尚不清楚。来自中国的最新科研成果表明,原发性新冠病毒感染可防止随后再感染,这对新冠患者的预后和下一…